论文摘要
有标记联合结构的自动识别将为汉语树库的构建做好预处理工作,提高句法分析器的工作效率,同时该识别成果可以直接应用于机器翻译、信息抽取等领域。以往对有标记联合结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的联合结构。本文在为构建汉语树库做好联合结构预处理的前提下,基于大规模语料库用规则和统计的方法分别对有标记联合结构进行了自动识别的研究。统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布、词与短语的序列分布、联合结构的长度分布以及联合结构的联合标记。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方为从语言学的角度量化地研究联合结构提供了精确的数据。根据联合结构的结构平行性和中心语相似性这一特征对联合结构用基于规则的方法进行了识别,由于词语语义计算缺乏量化和精确化、词性规则模板颗粒度过于粗糙,识别效果非常不理想,单层单标记联合结构的封闭测试和开放测试最好的调和平均值分别为62.52%和57.12%,这证明了在目前的条件下仅仅依靠联合结构的结构平行和中心语相似特征来识别联合结构的方法基本上是行不通的。本文详细介绍了CRF提出的背景、基本原理以及在中文信息处理中的应用,并用该模型对有标记联合结构进行了自动识别。分别用基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,封闭测试和开放测试调和平均值最高分别达到:99.17%和88.21%;99.99%和87.85%;99.98%和84.42%。这说明用基于统计的方法无论在识别的效率还是在识别的结果上都要比用基于规则的方法优越。
论文目录
中文摘要ABSTRACT引言0.1 课题的提出0.2 本文的研究内容0.2.1 有标记联合结构内部和外部语言学特征统计分析0.2.2 基于规则的有标记联合结构自动识别0.2.3 基于CRF的有标记联合结构自动识别0.3 本文的研究意义0.4 本文的研究方法0.5 章节安排第一章 相关研究概述1.1 传统语言学界关于有标记联合结构的研究1.2 计算语言学界关于浅层句法分析的研究状况1.2.1 浅层句法分析的任务及其意义1.2.2 具体的浅层句法研究1.3 有关联合结构自动识别的研究第二章 有标记联合结构的内部和外部语言学特征统计分析2.1 有标记联合结构的界定2.2 有标记联合结构内部和外部语言学特征统计考察2.2.1 有标记联合结构内部语言学特征统计考察2.2.1.1 有标记联合结构内部的词性序列分布2.2.1.2 有标记联合结构内部的短语序列分布2.2.1.3 联合结构内部的词与短语的分布序列2.2.1.4 有标记联合结构的长度分布2.2.1.5 有标记联合结构内部的联合标记考察2.2.2 有标记联合结构外部语言学特征统计考察2.2.2.1 联合结构的句法功能分布情况2.2.2.2 有标记联合结构边界特征词的分布情况2.2.2.2.1 联合结构的左边界特征词及其分析2.2.2.2.2 联合结构的右边界特征词及其分布第三章 基于规则的有标记联合结构自动识别3.1 单层单标记联合结构的语言学特征3.1.1 单层单标记联合结构内部词性序列3.1.2 单层单标记联合结构的音节长度3.2 单层单标记联合结构自动识别的算法分析3.2.1 预先标出多层多标记联合结构,确定识别的目标3.2.2 单层单标记联合结构规则模板的获取3.2.3 词形等同或词缀相同的单层单标记联合结构识别3.2.4 用前后词性标记相同的规则模板识别3.2.4.1 根据词语语义相似度来辅助识别联合结构3.2.5 用前后词性标记不相同的规则模板识别3.2.5.1 根据词语语义相似度来辅助识别联合结构3.3 试验结果分析3.3.1 封闭测试和开放测试结果3.3.2 错误分析3.3.3 结论第四章 基于CRF的有标记联合结构自动识别4.1 CRF模型概述4.1.1 CRF提出的背景4.1.2 CRF模型的形式化描述4.1.3 CRF在中文信息处理中的应用4.2.CRF识别有标记联合结构语料的预处理4.2.1 联合结构识别中CRF工具包的选用4.2.2 语料的选取及其语料的预处理4.2.3 联合结构识别中CRF特征的选取以及特征模板的确定4.2.3.1 基于复杂特征的特征选取和特征模板的确定4.2.3.2 基于增加语言学特征的特征选取和特征模板的确定4.3 基于CRF的有标记联合结构识别系统框架结构4.4 实验设计和实验结果分析4.4.1 含有嵌套联合结构的实验4.4.2 无嵌套联合结构的实验4.4.3 最长联合结构的实验4.5 错误分析结语附录参考文献致谢
相关论文文献
标签:有标记联合结构论文; 语义相似度论文; 规则模板论文; 特征模板论文;