文本校对论文-郝亚男,乔钢柱,谭瑛

文本校对论文-郝亚男,乔钢柱,谭瑛

导读:本文包含了文本校对论文开题报告文献综述及选题提纲参考文献,主要关键词:中文文本校对,注意力机制,双向门控循环神经网络,端到端序列模型

文本校对论文文献综述

郝亚男,乔钢柱,谭瑛[1](2019)在《基于神经网络与注意力机制的中文文本校对方法》一文中研究指出中文文本校对是中文自然语言处理方面的关键任务之一,人工校对方式难以满足日常工作的数据量需求,而基于统计的文本校对方法不能灵活的处理语义方面的错误.针对上述问题,提出了一种基于神经网络与注意力机制的中文文本校对方法.利用双向门控循环神经网络层获取文本信息并进行特征提取,并引入注意力机制层增强词间语义逻辑关系的捕获能力.在基于Keras深度学习框架下对模型进行实现,实验结果表明,该方法能够对含语义错误的文本进行校对.(本文来源于《计算机系统应用》期刊2019年10期)

赵建平,陈建新,穆杰,李永虎,杜有智[2](2019)在《藏文文本自动校对方法及系统构建分析》一文中研究指出藏文文本的自动校对是藏文信息处理的主要应用领域之一,因此对于藏文文本自动校对方法的探究与之后的系统构建是非常关键的技术探索。为了实现对藏文信息的不断探究,挖掘藏文信息内涵,本文从藏文文本校对方法以及自动系统构建来展开相关论述。(本文来源于《信息记录材料》期刊2019年05期)

海朝阳[3](2019)在《文本语义特征检测及校对研究》一文中研究指出随着新一代信息技术的快速发展和数据的爆炸式增长,人们对数据质量的追求达到了前所未有的高度。准确性是高质量数据的基本要求,如何提高准确性也是亟待解决的难题,各种“互联网+”应用中,对信息的语义表达都有着极高的规范化要求。然而,仅仅凭借人力难以胜任大数据量的规范性检查和处理,检查效果缺乏保障。如何高效准确地提取文本的语义特征并在此基础上进行文本校对的方法研究具有重要的理论意义和实用价值。通过分析大量的文本数据发现,文本中的组成单元是词语,而每个词语都有与之相对应的词义,词语间搭配关系的正确性取决于词义间搭配关系。基于此,本文提出文本语义特征检测及校对方法,通过研究词义之间潜在的关联性,设计合理的语义特征检测方法,构建语义搭配关系表示学习模型,主要工作如下:1)结合HowNet义原知识库与语料库,分析词语-语义之间的关系。使用神经网络学习词语-义原之间的潜在映射关系,将词语在语句中的结构化表达形式转换为抽象程度更高的义原表达形式,增强语句的语义表达能力,为语义搭配关系预测模块提供便于抽象化分析的信息。2)提出一种共享隐藏信息的双层长短时记忆网络模型,将其作为集成算法的子模型构建出语义级搭配关系预测模型。该长短时记忆网络模型可以在保证模型预测能力的基础上,减少冗余信息,提高训练效率。由于语言的上下文对应关系并非一一对应,为提高模型的整体预测能力,采用集成算法将多个子模型集成,利用子模型间的差异性,扩大集成模型对上下文信息的预测范围,完成文本的语义搭配关系预测。3)提出一种结合互信息和聚合度的PDI评价方法。为保证校对准确率,降低噪点数据对校对结果的影响,结合模糊匹配方法,对生成的校对建议投票,根据投票结果对候选的校对建议降序排序,并依据邻接义原和候选校对建议集合的匹配程度判断序列是否存在语义错误,将排名靠前的校对建议作为输出信息。(本文来源于《郑州大学》期刊2019-05-01)

蔡祝元[4](2019)在《基于蒙古文音节分析的文本校对方法研究》一文中研究指出文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古文使用过程中存在的文本错误问题,本文提出了以音节分析为基础,融合统计特征和蒙古文构词规则的方法,并利用混淆集实现了蒙古文文本的自动校对。本文在蒙古文音节的基础上进行了文本校对的相关研究。首先,本文通过对蒙古文音节切分建立了音节混淆集,并实现了蒙古文真词混淆集的自动生成,然后利用人工补充完善混淆集。在此基础上,本文利用网络爬虫获取相关网络语料,建立了单词级语言模型,实现了蒙古文的真词错误的文本校对。其次,本文在音节的基础上,结合蒙古文构词规则和音节语言模型实现了蒙古文的查错过程,然后利用融合统计特征的音节混淆字典和混淆音节的归一化概率实现了蒙古文的非词错误的校对过程。在蒙古文单词的单字符增减替换方面,相比于基于中间码的校正系统,本文所提出的方法各方面的性能都有所提升。最后,本文利用融合蒙古文文本的上下文语境的方法改善了蒙古文真词错误的校对算法,然后,通过联合本文的校对方法实现了对蒙古文的非词错误与真词错误的校正。本文利用蒙古文音节的特点建立音节与真词混淆集实现了对蒙古文非词错误与真词错误的查错与纠错。本实验在取得了不错的效果的同时,也为蒙古文的文本校对提供了新思路。(本文来源于《内蒙古大学》期刊2019-04-25)

吴淙[5](2019)在《中文文本校对关键技术研究与应用》一文中研究指出随着微型计算机技术的发展,信息产生的速度飞速增长。传统文本工作基本上全部在计算机上进行。然而只要涉及到文本的领域,就难免存在文本错误的问题。传统人工校对的方式很难满足日益增加的文本校对需求,人们迫切的需要一种高速、可靠的自动文本校对技术。中文文本自动校对技术可以帮助人们校对各个领域中遇到的文本错误,包括政府、媒体发布的公告、新闻和学者投稿的学术论文、研究报告等文本资料,在文字识别和语音识别等其他自然语言处理任务上,也能发挥巨大的作用。综上,研究自动文本校对具有广泛的应用领域和实用价值。在深入调研了国内外文本校对相关研究的基础上,本文进行了以下叁方面的研究:1.中文字词错误校对。在分析了前人研究的相关算法优缺点的基础上,提出一种基于LSTM和N-gram的k-最短路径模糊分词校对算法。该算法分为叁个阶段:首先通过改进的模糊匹配算法,在词典中模糊匹配句子中的字串,获取可能的校对候选词集,构成词图;然后以Bigram概率作为词语间边的权重,求解词图的k条最短路径;最后采用Trigram和LSTM语言模型对k条句子重新排序,选择最优的一条句子作为最终校对结果。在SIGHAN2013数据集上,本算法的成绩超过了在相同数据集上测评的其它系统。2.中文语法错误校对。根据中文语法错误校对任务的特点,通过分析现有中文语法校对方法存在的问题,提出了一种基于语言模型和神经机器翻译的语法校对方法。该算法的核心是卷积序列到序列(Conv-seq2seq)模型。模型的训练过程中,通过正句-错句平行语料训练错句生成模型,人工构造错误句子,增加训练语料的规模。借鉴小语种翻译问题中效果显着的迁移学习方法,通过预训练的英语-汉语翻译模型的参数初始化语法校对模型,提升模型性能。在模型应用过程中,先将句子进行字词错误校对,再输入模型,最后将集束搜索的结果通过语言模型进行重新排序。该算法在NLPCC2018数据集上取得了超过其他校对系统的F_(0.5)分值。3.采用轻量级web框架Flask作为主体,设计并实现了基于B/S架构的中文文本校对测试系统。系统包括知识获取模块、前端交互模块、预处理模块和自动校对模块四个部分,实现了中文文本的字词错误校对、语法错误校对、标点符号和数字校对等功能。(本文来源于《电子科技大学》期刊2019-04-16)

龚永罡,汪昕宇,李玉莹,王蕴琪[6](2018)在《中文文本敏感信息自动校对方法研究》一文中研究指出针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。(本文来源于《电脑与电信》期刊2018年12期)

王璐[7](2018)在《中文文本真词错误自动校对算法研究》一文中研究指出文本校对是出版工作的关键环节,在信息检索、光学字符识别和语音识别等领域有着广泛的应用。随着信息技术和出版业电子化发展,传统人工校对的方式已无法适应迅速增长的电子文本数量。中文真词错误指一个词虽然存在于词典中但不符合上下文语境。目前传统的真词错误自动校对算法主要依据局部上下文特征,没有很好的利用词与词间的关系。近两年,有学者提出基于深度学习seq2seq算法进行文本校对,该算法的优点是可以利用词向量和LSTM,通过长短距离词的语义对目标词进行校对。但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,不可控性较强,可能会输出一些语义奇怪且无法解释的句子。首先,本文改进了传统的基于统计模型的校对算法,提出了以混淆集和N-gram语言模型为基础的CS-N-gram文本校对算法。其次,本文借鉴传统的校对算法和序列标注算法,提出了一种基于混淆集和序列标注的CS-BiLSTM-CRF文本校对算法,既引入上下文词向量对目标词进行校对,又通过混淆集对算法进行一些限制。实验结果表明,CS-BiLSTM-CRF算法与CS-N-gram算法相比,取得了更高的校对召回率和准确率。同时,本文根据错误的成因,对CS-N-gram算法的错误进行归纳,分析CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点。CS-BiLSTM-CRF算法能在邻接词未登入情况下对目标词进行校对,有效解决CS-N-gram算法最为棘手的问题,同时能结合长距离词语义进行更好的校对。但在一些可以直接通过局部上下文进行校对的情况下,由于词向量包含了多个维度的信息,导致在部分语义的判断上会有一些误差,CS-BiLSTM-CRF算法效果略逊于CS-N-gram算法。通过对CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点进行分析,本文提出了一种自动校对混合算法。该混合算法在未使用外部语料,不添加规则词典等人工干预措施的前提下,整体校对效果与单一算法相比有较大的提升,且该算法通用性较强,可直接应用于不同语料的真词错误自动校对,对中文真词错误自动校对研究有较大的意义。(本文来源于《浙江工商大学》期刊2018-12-01)

陶永才,海朝阳,石磊,卫琳[8](2018)在《中文词语搭配特征提取及文本校对研究》一文中研究指出随着网络的快速发展,电子文本正在人们的生活中发挥着越来越重要的作用,但是电子文本中存在着大量的字词错误以及语法错误,亟需有效的校对方法来提高电子文本的质量.本文提出一种基于词语搭配关系的文本校对方法,包括构建语法-词语搭配双层知识库以及基于互信息和聚合度双重评价条件下的词语搭配校对算法.知识库的构建主要分为语法和词语搭配两部分:(1)从训练语料中抽取并分析语句结构成分,构建语法成分知识库;(2)从训练语料中学习词语之间的搭配关系,利用共现频数和互信息进行筛选,构建词语搭配知识库.在此基础上,综合使用互信息和聚合度评价词语关联强度,进行词语搭配关系校对.实验结果显示,本文所提出的校对模型和算法的F值与其他文献相比提高了3.9%.(本文来源于《小型微型计算机系统》期刊2018年11期)

袁志[9](2018)在《政府网站文本校对关键技术研究》一文中研究指出随着政务信息化的逐步推进,越来越多的服务和信息可以在政府网站中获取。政府网站的公开信息旨在向群众传达及时、准确、权威的消息,但随着公开信息量的急速增长,电子文本中不可避免的会出现编辑者容易忽略的错误。由于政府网站中的公开信息对准确性的高要求,利用计算机进行文本辅助校对成为一种迫切的需求。近些年中文文本校对在问答、社交和意见文本等领域做了针对性的研究,在政府网站文本上还存在着缺失。基于中文文本校对在政府网站文本中研究的缺失,本文采用自然语言处理技术,从统计和机器学习的角度对政府网站文本校对关键技术进行了深入的研究。通过分析中文文本一般错误类型,结合政府网站文本的文本特征,确定研究范围为基于同音字词替换产生的词语级错误和短距离上下文搭配错误。词语级错误,也称为“非多字词错误”;短距离上下文搭配错误,也称为“真多字词错误”。针对这两类错误,从文本校对的查错和纠错两方面入手研究。本文在跟进已有的研究成果的基础上从统计和机器学习的角度对其进行了以下叁方面的研究:1.“非多字词错误”:在实现传统的基于词典的校对方案基础上,通过分析多组实例,发现含“非多词错误”的句子在分词阶段,其错误词语有较大概率被分为单字散串。针对此规律,提出散串合并算法以提高查错率进而提升整体的纠错率。通过实验验证散串合并算法在原方案基础上提升了6%的查错率和3.1%的纠错率。2.“真多字词错误”:在查错端采用传统的N元语法模型结合阈值进行查错。在纠错端根据错误搭配与正确搭配拥有相同拼音串的特征,提出基于HMM(Hidden Markov Model)模型的纠错方案。根据用户键入时多以词键入的特征,提出在纠错端采用基于词的有向无环图模型的纠错方案。基于HMM模型和基于词的有向无环图模型的纠错方案在测试集分别获得65.46%和53.19%的纠错率。3.基于循环神经网络的文本校对研究:利用基于LSTM(Long Short Term Memory networks)的序列解码模型,对文本校对问题进行建模。利用LSTM的长效记忆的特点充分获取句子的语义信息,再利用序列解码模型,实现从错句到正句的校对。最后通过大量的对比实验验证了本文所提算法和创新方案的可行性。(本文来源于《电子科技大学》期刊2018-05-25)

卓利艳[10](2018)在《字词级中文文本自动校对的方法研究》一文中研究指出随着互联网数据的快速增长,互联网信息质量也不断下降。但新闻出版、广播电视等部门又对文本质量有很高的要求,而这些行业的校对工作仍以人工为主,在词语、拼音、数字、符号等方面均存在或多或少的问题,因此文本的自动校对具有实际意义。本文研究字词级文本自动校对,包括文本自动查错和自动纠错两部分。文本自动查错采用联合模型,自动纠错是基于错误类型采用针对性的方法。自动查错和纠错的具体内容如下:(1)本文设计的自动查错是采用条件随机场(CRF)和n-gram散串相结合的联合查错模型,该模型首先分别使用条件随机场和n-gram散串进行文本查错;然后融合二者结果生成最终查错结果。文本查错的实验结果表明,检测层的正确率达到95.8%,识别层的正确率达到39.5%。(2)本文文本中字词级错误可以分为缺失、冗余和误代叁种错误类型,针对不同的错误类型分别采用不同的方法进行纠正。其中缺失类型使用语言模型进行纠正,冗余错误采用直接删除法,误代错误采用同音词词典进行纠正,本文着重介绍基于语言模型和基于同音词词典的纠错方法。文本纠错的纠正率结果达到16.7%。本文设计并实现了文本的自动校对系统。系统分为两个模块:自动查错模块和自动纠错模块。自动查错模块包含条件随机场查错功能和n-gram散串查错功能;纠错模块包含缺失纠正功能、冗余纠正功能和误代纠正功能。(本文来源于《郑州大学》期刊2018-05-01)

文本校对论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

藏文文本的自动校对是藏文信息处理的主要应用领域之一,因此对于藏文文本自动校对方法的探究与之后的系统构建是非常关键的技术探索。为了实现对藏文信息的不断探究,挖掘藏文信息内涵,本文从藏文文本校对方法以及自动系统构建来展开相关论述。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本校对论文参考文献

[1].郝亚男,乔钢柱,谭瑛.基于神经网络与注意力机制的中文文本校对方法[J].计算机系统应用.2019

[2].赵建平,陈建新,穆杰,李永虎,杜有智.藏文文本自动校对方法及系统构建分析[J].信息记录材料.2019

[3].海朝阳.文本语义特征检测及校对研究[D].郑州大学.2019

[4].蔡祝元.基于蒙古文音节分析的文本校对方法研究[D].内蒙古大学.2019

[5].吴淙.中文文本校对关键技术研究与应用[D].电子科技大学.2019

[6].龚永罡,汪昕宇,李玉莹,王蕴琪.中文文本敏感信息自动校对方法研究[J].电脑与电信.2018

[7].王璐.中文文本真词错误自动校对算法研究[D].浙江工商大学.2018

[8].陶永才,海朝阳,石磊,卫琳.中文词语搭配特征提取及文本校对研究[J].小型微型计算机系统.2018

[9].袁志.政府网站文本校对关键技术研究[D].电子科技大学.2018

[10].卓利艳.字词级中文文本自动校对的方法研究[D].郑州大学.2018

标签:;  ;  ;  ;  

文本校对论文-郝亚男,乔钢柱,谭瑛
下载Doc文档

猜你喜欢