基于树库的中文依存句法分析的研究

论文摘要

句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。随着自然语言和基于统计机器学习的发展,基于统计的依存句法分析的算法越来越接近成熟。而现阶段依存句法的汉语树库的匮乏无疑限制了汉语依存句法分析的发展。语料的准确度的高低与规模的大小从最基础的层面决定着句法分析的性能的好坏,对于基于树库的依存句法分析,没有大规模、高准度的语料,再好的算法也失去了他的作用。树库作为一种对句子进行了深层句法标注的语料库越来越引起人们的关注。本文首先介绍了依存句法分析的算法以及相关的统计机器学习模型,并分析总结了这些算法的优缺点；然后根据中文依存句法的特点,建立了标注规范,使最终生成的依存树库更符合中国语言的规范,更具有实用价值；其次,针对中文依存句法的特殊结构建立了更精细的规则；再次,建立了一个将中文短语结构树库转化为依存结构树库的系统；最后通过实验证实了新生成语料的优势,以及研究语料本身的特点,发现影响中文依存句法分析的因素,并从树库本身的角度出发,研究提高依存句法分析的准确度。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题的背景和意义

1.2 依存句法分析概述

1.3 树库资源

1.4 本文结构安排

第二章依存句法分析方法理论

2.1 中文依存句法分析的研究现状

2.2 相关的统计机器学习算法

2.2.1 K最近邻分类算法

2.2.2 朴素贝叶斯分类算法

2.2.3 决策树分类算法

2.2.4 支持向量机分类算法

2.2.5 Passive-Aggressive（PA）算法

2.3 依存句法分析的搜索算法

2.3.1 全局最优的搜索算法

2.3.2 局部最优的搜索算法

第三章树库转换系统方法及实现

3.1 树库转换系统的方法步骤及框架

3.2 树库转换系统方法的具体细节

3.2.1 拆分复杂的树结构

3.2.2 建立更准确的核心映射表

3.2.3 排除标点、语气词、感叹词做核心词的情况

3.2.4 利用规则的方法解决汉语中的特殊语法结构

3.2.5 建立依赖关系类型标注规范

3.2.6 利用规则的方法确定依赖关系类型

3.3 实施案例

3.4 准确度测试

3.4.1 转换错误分析

第四章实验结果与分析

4.1 评测标准

4.2 实验数据

4.3 实验过程、结果及分析

4.3.1 FudanDependTree与MaltDependTree对算法影响比较

4.3.2 不同依存距离的准确率

4.3.3 不同句子长度的准确率

4.3.4 不同词性的准确率

4.4 小结

第五章总结与展望

参考文献

致谢

基于树库的中文依存句法分析的研究

论文摘要

论文目录

相关论文文献