基于树库的中文依存句法分析的研究
论文摘要
句法分析位于自然语言处理中的一个核心位置,其性能的好坏,对其他技术有着重要的影响。在语法体系中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。随着自然语言和基于统计机器学习的发展,基于统计的依存句法分析的算法越来越接近成熟。而现阶段依存句法的汉语树库的匮乏无疑限制了汉语依存句法分析的发展。语料的准确度的高低与规模的大小从最基础的层面决定着句法分析的性能的好坏,对于基于树库的依存句法分析,没有大规模、高准度的语料,再好的算法也失去了他的作用。树库作为一种对句子进行了深层句法标注的语料库越来越引起人们的关注。本文首先介绍了依存句法分析的算法以及相关的统计机器学习模型,并分析总结了这些算法的优缺点;然后根据中文依存句法的特点,建立了标注规范,使最终生成的依存树库更符合中国语言的规范,更具有实用价值;其次,针对中文依存句法的特殊结构建立了更精细的规则;再次,建立了一个将中文短语结构树库转化为依存结构树库的系统;最后通过实验证实了新生成语料的优势,以及研究语料本身的特点,发现影响中文依存句法分析的因素,并从树库本身的角度出发,研究提高依存句法分析的准确度。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题的背景和意义1.2 依存句法分析概述1.3 树库资源1.4 本文结构安排第二章 依存句法分析方法理论2.1 中文依存句法分析的研究现状2.2 相关的统计机器学习算法2.2.1 K最近邻分类算法2.2.2 朴素贝叶斯分类算法2.2.3 决策树分类算法2.2.4 支持向量机分类算法2.2.5 Passive-Aggressive(PA)算法2.3 依存句法分析的搜索算法2.3.1 全局最优的搜索算法2.3.2 局部最优的搜索算法第三章 树库转换系统方法及实现3.1 树库转换系统的方法步骤及框架3.2 树库转换系统方法的具体细节3.2.1 拆分复杂的树结构3.2.2 建立更准确的核心映射表3.2.3 排除标点、语气词、感叹词做核心词的情况3.2.4 利用规则的方法解决汉语中的特殊语法结构3.2.5 建立依赖关系类型标注规范3.2.6 利用规则的方法确定依赖关系类型3.3 实施案例3.4 准确度测试3.4.1 转换错误分析第四章 实验结果与分析4.1 评测标准4.2 实验数据4.3 实验过程、结果及分析4.3.1 FudanDependTree与MaltDependTree对算法影响比较4.3.2 不同依存距离的准确率4.3.3 不同句子长度的准确率4.3.4 不同词性的准确率4.4 小结第五章 总结与展望参考文献致谢
相关论文文献
本文来源: https://www.lw50.cn/article/26d1b0ccd178f8247b1450c8.html