论文摘要
汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最小元素,词与词之间的依存关系解析可以表示词间的深层联系,所以本文在词的基础上进行依存关系解析。Nivre算法已经成功地应用于英文和西班牙语的依存关系解析,并取得了较好的研究成果,而英文和汉语在句法特点上具有一定的相似性,所以本文采用基于SVM(Support vector machine,SVM)的确定性Nivre算法进行汉语依存关系解析。确定性解析算法通过解析句子中各个词与其前后词的依存关系解析整个句子。而有些相互依存的词距离较远,使用传统的确定性解析方法难以解析。杨洋提出的“考虑远距离依存关系的确定性Nivre算法”,较好地解决了这个问题。但是这种方法没有考虑整句信息,影响了解析器的解析效果。为解决上述问题,本文采用优先度学习算法构建了根节点解析器,将句子信息加入到根节点识别的过程,通过提高根节点的解析精度来间接地提高依存关系的解析精度,而且根节点将一个句子划分为两个独立的分句,这样既可以降低解析难度,又可以避免出现跨越根节点的错误的依存关系。通过解析两个分句,并组合它们各自的解析结果即可得到原句的依存关系解析结果。实验采用哈工大信息检索研究室提供的依存关系语料库,引入根节点解析器后,根正确率提高了9.6%,达到81.20%。同时根节点的确定也为随后的依存关系解析提供了整句的依存结构信息,使依存关系正确率提高至79.44%。封闭测试几乎完全正确地解析了训练语料,解析精度达到98.62%。对上述实验结果进行错误分析,发现哈工大语料库粗糙的词性导致了部分解析错误。为提供更准确的学习特征,本文基于隐马尔可夫模型细化了语料库的词性标注体系,根正确率又得到进一步提高,达到83.90%,依存关系正确率也得到一定的提高,达到79.64%。
论文目录
相关论文文献
标签:汉语依存关系解析论文; 支持向量机论文; 算法论文; 优先度学习论文; 词性体系转换论文;