基于根节点的汉语依存关系解析的研究

论文摘要

汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最小元素,词与词之间的依存关系解析可以表示词间的深层联系,所以本文在词的基础上进行依存关系解析。Nivre算法已经成功地应用于英文和西班牙语的依存关系解析,并取得了较好的研究成果,而英文和汉语在句法特点上具有一定的相似性,所以本文采用基于SVM(Support vector machine,SVM)的确定性Nivre算法进行汉语依存关系解析。确定性解析算法通过解析句子中各个词与其前后词的依存关系解析整个句子。而有些相互依存的词距离较远,使用传统的确定性解析方法难以解析。杨洋提出的“考虑远距离依存关系的确定性Nivre算法”,较好地解决了这个问题。但是这种方法没有考虑整句信息,影响了解析器的解析效果。为解决上述问题,本文采用优先度学习算法构建了根节点解析器,将句子信息加入到根节点识别的过程,通过提高根节点的解析精度来间接地提高依存关系的解析精度,而且根节点将一个句子划分为两个独立的分句,这样既可以降低解析难度,又可以避免出现跨越根节点的错误的依存关系。通过解析两个分句,并组合它们各自的解析结果即可得到原句的依存关系解析结果。实验采用哈工大信息检索研究室提供的依存关系语料库,引入根节点解析器后,根正确率提高了9.6%,达到81.20%。同时根节点的确定也为随后的依存关系解析提供了整句的依存结构信息,使依存关系正确率提高至79.44%。封闭测试几乎完全正确地解析了训练语料,解析精度达到98.62%。对上述实验结果进行错误分析,发现哈工大语料库粗糙的词性导致了部分解析错误。为提供更准确的学习特征,本文基于隐马尔可夫模型细化了语料库的词性标注体系,根正确率又得到进一步提高,达到83.90%,依存关系正确率也得到一定的提高,达到79.64%。

论文目录

摘要

Abstract

1 绪论

1.1 问题的提出

1.1.1 依存关系解析的提出

1.1.2 汉语依存关系简介

1.1.3 汉语依存关系解析的特点和难点

1.2 汉语依存关系解析的意义

1.3 汉语依存关系解析的现状

1.4 本文的工作

2 支持向量机

2.1 机器学习

2.1.1 机器学习的相关概念

2.1.2 机器学习系统

2.2 支持向量机

2.2.1 线性SVM

2.2.2 构造SVM

2.2.3 非线性SVM

2.2.4 SVM的多类划分

3 基于根节点解析的汉语依存关系解析模型

3.1 确定性Nivre算法

3.2 考虑远距离依存关系的确定性Nivre算法

3.3 基于根节点解析的汉语依存关系解析算法

3.3.1 优先度学习

3.3.2 根节点解析

3.3.3 基于根节点解析的汉语依存关系解析算法

4 基于根节点解析和词性体系转换的汉语依存关系解析模型

4.1 隐马尔科夫模型

4.1.1 马尔科夫链

4.1.2 隐马尔科夫模型

4.2 隐马尔科夫模型的三个基本问题

4.2.1 前向—后向算法

4.2.2 Viterbi算法

4.2.3 Baum—Welch算法

4.3 利用Viterbi算法进行词性体系转换

4.3.1 常用的词性标注方法

4.3.2 利用Viterbi算法进行词性体系转换

4.3.3 词性体系转换的结果以及错误分析

4.4 基于根节点解析和词性体系转换的汉语依存关系解析算法

5 实验结果与分析

5.1 语料资源

5.2 训练样本和测试样本的分类方法

5.3 评价标准

5.4 实验结果

5.4.1 确定性汉语依存关系解析结果

5.4.2 考虑远距离依存关系的确定性汉语依存关系解析结果

5.4.3 基于根节点解析的汉语依存关系解析结果

5.4.4 基于根节点解析和词性体系转换的汉语依存关系解析结果

5.5 实验结果对比

5.6 错误分析

结论

参考文献

附录A 北大2003版词性标注集

附录B 哈工大语料库词性表

攻读硕士学位期间发表学术论文情况

致谢

基于根节点的汉语依存关系解析的研究

论文摘要

论文目录

相关论文文献

猜你喜欢