论文摘要
近年来,随着计算机的普及与信息化的发展,中文信息处理技术的应用日益广泛,中文自动分词技术是中文信息处理的基础,已应用在文本校对、机器翻译、文本分类、自动摘要、信息检索、计算机人机接口等诸多领域。本文在对传统的中文自动分词系统及主要分词技术研究的基础上,做了多方改进,完成了一个实用、高效的分词系统原型。本课题主要对中文自动分词关键技术:自动分词方法、歧义字段的处理方法以及命名实体的计算机自动识别方法等技术进行了分析和研究。本文所做的主要工作如下:1.针对易引起歧义的特征词,提出了一种对特征词的特殊处理方法,对每个特征词创建了相应的规则,构造了针对特征词的规则库,利用特征词的规则库进行初步切分,这样不但提高了切分速度,且解决了部分歧义问题。2.针对传统的正向最大匹配算法的缺陷,对该算法进行了改进,在匹配的过程中根据已经扫描过的词来确定是否继续匹配下去,动态的确定要匹配的长度,这样不但减少了平均匹配操作的次数,不受词长的限制,充分体现了“长词优先”的原则,且提高了切分的速度。3.针对歧义的处理,采用了多步分层消除歧义技术,首先在粗分割模块利用特征词消除了一部分歧义,还存在歧义的字段在最后的歧义消除模块利用长词优先及右规约技术进行消歧,使切分结果正确率进一步提高。4.词典的设计方面,为了适合切分算法,因算法要频繁查询一个字串是否为一个词的前缀,因此把词典中的词划分为两类:真正意义上的词与词的前缀,这样更有利于切分过程的查询,进一步提高了切分的速度。5.对文本中的出现的命名实体如中外人名、地名、机构名、时间和数字等未登录词,分析它们的特点,设计了相应的识别方法。经过大量的实验表明:本文实现的中文自动分词原型具有较高的切分速度,平均达到了195,601汉字/秒,同时在切分的准确率方面达到了98.08%,可见系统有较好的性能。
论文目录
中文摘要ABSTRACT第一章 绪论1.1 研究的背景和意义1.2 研究的现状1.3 本文的研究内容1.4 本文的组织结构第二章 传统中文自动分词方法分析比较2.1 汉语分词的难点2.1.1 分词标准规范化问题2.1.2 歧义词的处理问题2.1.3 命名实体的识别问题2.2 传统的分词方法简介2.2.1 机械性分词方法2.2.2 理解性分词方法2.2.3 统计性分词方法2.2.4 三种分词方法比较2.3 自动分词模型2.3.1 自动分词的理论模型2.3.2 自动分词的评价标准2.4 本章小结第三章 切分处理技术分析研究3.1 正向最大匹配切分算法3.2 逆向最大匹配切分算法3.3 自适应的正向MM切分算法3.4 算法分析比较3.5 本章小结第四章 歧义分析与消岐技术研究4.1 歧义字段形成的原因4.1.1 中文文本书写格式4.1.2 汉语语素的构词能力4.1.3 汉语词的同形词问题4.1.4 人名地名的大量存在4.2 歧义的类型4.3 交集型歧义字段处理技术4.3.1 交集型歧义字段的统计分析4.3.2 交集型歧义字段的切分方法4.4 组合型歧义字段处理技术4.4.1 句法歧义字段处理4.4.2 语义歧义字段处理4.4.3 语用歧义字段处理4.5 本章小结第五章 命名实体自动识别技术研究5.1 中文人名识别技术5.1.1 中文人名特点分析5.1.2 中文人名识别方法5.2 中文地名识别技术5.2.1 中文地名资源5.2.2 中文地名资源知识库的构造5.2.3 中文地名规则库构造5.2.4 中文地名识别技术5.3 中文机构名的识别技术5.3.1 机构名称的语法性质5.3.2 机构名称的语义特性5.3.3 机构名称的组织规律5.3.4 机构名称的识别方法5.4 外国人名、时间词和数词5.5 本章小结第六章 中文自动分词系统原型实现6.1 系统简介6.2 预处理模块6.3 粗切分模块6.4 细切分模块6.5 歧义消除模块6.6 实验结果对比6.7 本章小结第七章 全文总结与展望7.1 本文讨论主要问题及创新7.2 存在的问题及展望参考文献致谢攻读硕士学位期间承担的科研任务及主要成果
相关论文文献
标签:中文自动分词论文; 歧义处理论文; 最大匹配论文; 人名识别论文;