有标记联合结构的自动识别

有标记联合结构的自动识别

论文摘要

有标记联合结构的自动识别将为汉语树库的构建做好预处理工作,提高句法分析器的工作效率,同时该识别成果可以直接应用于机器翻译、信息抽取等领域。以往对有标记联合结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的联合结构。本文在为构建汉语树库做好联合结构预处理的前提下,基于大规模语料库用规则和统计的方法分别对有标记联合结构进行了自动识别的研究。统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布、词与短语的序列分布、联合结构的长度分布以及联合结构的联合标记。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方为从语言学的角度量化地研究联合结构提供了精确的数据。根据联合结构的结构平行性和中心语相似性这一特征对联合结构用基于规则的方法进行了识别,由于词语语义计算缺乏量化和精确化、词性规则模板颗粒度过于粗糙,识别效果非常不理想,单层单标记联合结构的封闭测试和开放测试最好的调和平均值分别为62.52%和57.12%,这证明了在目前的条件下仅仅依靠联合结构的结构平行和中心语相似特征来识别联合结构的方法基本上是行不通的。本文详细介绍了CRF提出的背景、基本原理以及在中文信息处理中的应用,并用该模型对有标记联合结构进行了自动识别。分别用基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,封闭测试和开放测试调和平均值最高分别达到:99.17%和88.21%;99.99%和87.85%;99.98%和84.42%。这说明用基于统计的方法无论在识别的效率还是在识别的结果上都要比用基于规则的方法优越。

论文目录

  • 中文摘要
  • ABSTRACT
  • 引言
  • 0.1 课题的提出
  • 0.2 本文的研究内容
  • 0.2.1 有标记联合结构内部和外部语言学特征统计分析
  • 0.2.2 基于规则的有标记联合结构自动识别
  • 0.2.3 基于CRF的有标记联合结构自动识别
  • 0.3 本文的研究意义
  • 0.4 本文的研究方法
  • 0.5 章节安排
  • 第一章 相关研究概述
  • 1.1 传统语言学界关于有标记联合结构的研究
  • 1.2 计算语言学界关于浅层句法分析的研究状况
  • 1.2.1 浅层句法分析的任务及其意义
  • 1.2.2 具体的浅层句法研究
  • 1.3 有关联合结构自动识别的研究
  • 第二章 有标记联合结构的内部和外部语言学特征统计分析
  • 2.1 有标记联合结构的界定
  • 2.2 有标记联合结构内部和外部语言学特征统计考察
  • 2.2.1 有标记联合结构内部语言学特征统计考察
  • 2.2.1.1 有标记联合结构内部的词性序列分布
  • 2.2.1.2 有标记联合结构内部的短语序列分布
  • 2.2.1.3 联合结构内部的词与短语的分布序列
  • 2.2.1.4 有标记联合结构的长度分布
  • 2.2.1.5 有标记联合结构内部的联合标记考察
  • 2.2.2 有标记联合结构外部语言学特征统计考察
  • 2.2.2.1 联合结构的句法功能分布情况
  • 2.2.2.2 有标记联合结构边界特征词的分布情况
  • 2.2.2.2.1 联合结构的左边界特征词及其分析
  • 2.2.2.2.2 联合结构的右边界特征词及其分布
  • 第三章 基于规则的有标记联合结构自动识别
  • 3.1 单层单标记联合结构的语言学特征
  • 3.1.1 单层单标记联合结构内部词性序列
  • 3.1.2 单层单标记联合结构的音节长度
  • 3.2 单层单标记联合结构自动识别的算法分析
  • 3.2.1 预先标出多层多标记联合结构,确定识别的目标
  • 3.2.2 单层单标记联合结构规则模板的获取
  • 3.2.3 词形等同或词缀相同的单层单标记联合结构识别
  • 3.2.4 用前后词性标记相同的规则模板识别
  • 3.2.4.1 根据词语语义相似度来辅助识别联合结构
  • 3.2.5 用前后词性标记不相同的规则模板识别
  • 3.2.5.1 根据词语语义相似度来辅助识别联合结构
  • 3.3 试验结果分析
  • 3.3.1 封闭测试和开放测试结果
  • 3.3.2 错误分析
  • 3.3.3 结论
  • 第四章 基于CRF的有标记联合结构自动识别
  • 4.1 CRF模型概述
  • 4.1.1 CRF提出的背景
  • 4.1.2 CRF模型的形式化描述
  • 4.1.3 CRF在中文信息处理中的应用
  • 4.2.CRF识别有标记联合结构语料的预处理
  • 4.2.1 联合结构识别中CRF工具包的选用
  • 4.2.2 语料的选取及其语料的预处理
  • 4.2.3 联合结构识别中CRF特征的选取以及特征模板的确定
  • 4.2.3.1 基于复杂特征的特征选取和特征模板的确定
  • 4.2.3.2 基于增加语言学特征的特征选取和特征模板的确定
  • 4.3 基于CRF的有标记联合结构识别系统框架结构
  • 4.4 实验设计和实验结果分析
  • 4.4.1 含有嵌套联合结构的实验
  • 4.4.2 无嵌套联合结构的实验
  • 4.4.3 最长联合结构的实验
  • 4.5 错误分析
  • 结语
  • 附录
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    有标记联合结构的自动识别
    下载Doc文档

    猜你喜欢