自然语言处理之汉语文本自动校对

自然语言处理之汉语文本自动校对

论文题目: 自然语言处理之汉语文本自动校对

论文类型: 硕士论文

论文专业: 计算机应用技术

作者: 朱磊

导师: 杨国纬

关键词: 自动校对,汉语文本,标点符号,疑错窗口,语料库,字词混淆集,易混淆词典

文献来源: 电子科技大学

发表年度: 2005

论文摘要: 随着电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,如何保证这些文本的正确性,显得越来越重要。汉语文本自动校对系统的研究已成为一项亟待解决的紧迫课题。本文在对目前汉语文本校对技术的深入研究和分析的基础上,在汉语文本自动校对领域进行了初步的探讨,在文本校对理论研究和技术实现上进行了有益的尝试,并提出了对汉语文本校对的改进方法。针对标点符号错误的校对,本文提出了以标点符号使用规则为驱动,针对常见的错误类型,在分词和词性标注的基础上,结合上下文信息,进行查错的方法。并根据规则产生纠错建议。实验结果显示本文提出的这种算法可以解决大部分的标点符号错误,并能给出正确的纠错建议。对于汉语文本查错部分,本文在归纳总结错误类型的基础上,对早期的查错方法进行了改进。利用汉语文字错误数据稀疏性的特点,采用一种在大规模现代汉语语料库的支持下,基于疑错窗口进行查错的方法。这样有针对性地查错,避免了大量计算,降低了算法的复杂度,并提高了召回率。对于汉语文本纠错部分,本文充分利用汉语文本错误的特点,对早期的纠错建议产生算法进行了改进和扩展。本文通过构造字词混淆集、易混淆词典对易混淆词、别字以及多字替换等错误产生纠错建议,通过将教研室已有的词典重构成按字驱动的词典来对漏字、多字、易位等错误产生纠错建议。实验结果证明,该算法是一个行之有效的方法。最后本文提出了这些算法在实验系统中的一些不足之处以及下一步的工作方向。

论文目录:

摘要

Abstract

目录

第一章 引言

1.1 自然语言处理概述

1.2 我国自然语言处理的发展现状

1.3 自动校对概述

1.3.1 英语文本自动校对的概述

1.3.2 汉语文本自动校对的概述

1.4 目前汉语文本自动校对的研究现状和研究方法

1.5 对目前汉语文本自动校对的思考

1.5.1 对汉语文本自动校对系统的难点分析

1.5.2 汉语文本自动校对的发展方向

第二章 实验系统介绍

2.1 系统结构

2.2 系统流程图

第三章 标点符号的校对

3.1 标点符号校对的概述

3.2 标点符号的基本规则和使用说明

3.2.1 标点符号的基本规则

3.2.2 标点符号的使用说明

3.2.3 标点符号的位置

3.3 标点符号的常见错误类型

3.4 标点符号校对流程分析

3.4.1 标点符号校对模块流程分析

3.4.2 标点符号局部分析器及报错处理

3.5 标点符号校对算法设计与实现

3.6 小结

第四章 汉语文本查错

4.1 汉语文本查错概述

4.1.1 汉语文本查错现状概述

4.1.2 汉语错误类型分析

4.2 基于疑错窗口进行查错概述

4.3 语料训练库知识的获取

4.3.1 词类的划分

4.3.2 语料库中知识的获取

4.4 疑错窗口定位

4.4.1 字词二元接续关系判断函数

4.4.2 疑错窗口定位

4.4.3 定位疑错窗口的算法以及实现

4.5 基于疑错窗口的词性预测分析

4.5.1 词性预测分析的判断函数

4.5.2 基于疑错窗口的词性预测分析的算法及实现

4.6 实验以及结果分析

4.7 小结

第五章 汉语文本纠错

5.1 目前国内汉语文本纠错研究的现状

5.2 改进方法概述

5.3 易混淆词词典的构成

5.4 输入编码相同或相近(拼音)字词混淆集的构造

5.5 漏字、多字的纠错建议获取

5.6 纠错建议产生算法

5.7 小结

第六章 全文总结

致谢

参考文献

个人简历

发布时间: 2005-09-23

参考文献

  • [1].可靠性编码与校对模型[D]. 刘庆华.山东科技大学2006
  • [2].中文文本自动校对系统[D]. 石敏.江苏科技大学2015
  • [3].面向文本识别流的自动校对算法研究[D]. 王永景.上海交通大学2008
  • [4].维吾尔文词语自动校对系统的设计与实现[D]. 如先姑力·阿布都热西提.电子科技大学2013
  • [5].哈萨克文语料库词汇校对研究[D]. 伊力亚尔·加尔木哈买提.新疆大学2008
  • [6].基于自然语言处理的文本自动校对系统[D]. 丁豪.电子科技大学2006
  • [7].文书智能校对系统的设计与实现[D]. 甘雨坤.吉林大学2015
  • [8].面向中文校对的语料库并行处理技术研究[D]. 刘滔.国防科学技术大学2012
  • [9].表计止度自动化核对软件的设计和应用[D]. 臧正晓.电子科技大学2011
  • [10].市长公开电话汉语文本标签的确立[D]. 张晓明.黑龙江大学2010

相关论文

  • [1].面向文本识别流的自动校对算法研究[D]. 王永景.上海交通大学2008
  • [2].基于笔形相似的文本校对算法及其接口原型系统的研究[D]. 于志恒.东北师范大学2007
  • [3].汉语句子相似度计算方法及其应用的研究[D]. 周舫.河南大学2005
  • [4].基于自然汉语的数据库查询研究[D]. 胡晓军.电子科技大学2006
  • [5].基于自然语言处理的文本自动校对系统[D]. 丁豪.电子科技大学2006
  • [6].基于自然语言处理的自动文摘系统[D]. 张峰.电子科技大学2006
  • [7].基于自然语言处理的问答系统研究[D]. 王慧慧.电子科技大学2006
  • [8].自然语言处理及其智能搜索引擎模型的设计研究[D]. 张爱民.兰州理工大学2003
  • [9].中文文本分词及词性标注自动校对方法研究[D]. 钱揖丽.山西大学2003
  • [10].中文统计自然语言处理隐马模型的研究[D]. 陈波.重庆大学2003

标签:;  ;  ;  ;  ;  ;  ;  

自然语言处理之汉语文本自动校对
下载Doc文档

猜你喜欢