基于动词次范畴化的汉语句法分析后处理方法的研究

论文摘要

句法分析是自然语言处理的一个基本问题,其主要任务是判断输入的单词序列能不能构成合乎语法的句子,构造出合乎语法的句子的句法结构,也就是应用语法规则或其它知识,依据该输入句子中单词之间的线性次序,得出一个非线性的数据结构。它有很多应用,比如机器翻译、信息获取、自动文摘等都有着重要的作用。在基于统计的句法分析方法中,最关键的两个问题是建立消解语言歧义统计模型和句法分析后处理的设计,它们决定着句法分析系统的分析正确率和效率。本文从事的工作则主要从句法分析后处理方面入手,提出了一个基于动词次范畴化的汉语句法分析后处理的方法,主要研究工作如下:1.研究现有常用的统计句法分析模型和句法分析算法,并对其进行综合分析比较,而且解释了动词次范畴化句法模式的理论、形式化描写以及次范畴化和对应的句法树之间的关系。2.用统计句法分析模型产生n-best句法分析树输出,通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,进行相应的重排序来寻找最优的句法分析树,并进行了相应的基于动词次范畴化规则方法的句法分析后处理实验。3.通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,达到改善句法分析的最优解,并进行了基于动词次范畴化统计信息方法的句法分析后处理实验。本文的实验采用了中文信息学会CIPS-ParsEval-2009竞赛语料作为训练语料,它来自于清华汉语语料库（TCT）,并用中文信息学会CIPS-ParsEval-2009测试数据进行实验。实验表明本文最好的结果F1值达到88.759%接近中文信息学会句法分析CIPS-ParsEval-2009最好结果F1值88.77%,有利的证明本文的基于动词次范畴化的汉语句法分析后处理方法具有较高的句法分析效率和正确率。

论文目录

中文摘要

Abstract

第1章绪论

1.1 本文研究的目的和意义

1.2 国内外相关研究现状

1.2.1 国外的研究现状

1.2.2 国内的研究现状

1.3 本文的主要研究内容

1.4 本文的结构安排

第2章统计语言模型和动词次范畴化理论

2.1 引言

2.2 基于统计的方法

2.2.1 统计句法分析模型

2.2.1.1 概率上下文无关文法

2.2.1.2 统计句法分析模型的基本概念

2.2.1.3 生成式统计模型

2.2.1.4 判别式模型

2.2.2 句法分析的搜索算法

2.2.2.1 基于局部寻优搜索算法

2.2.2.2 基于全局寻优搜索算法

2.3 基于句法模式的动词次范畴化理论

2.4 动词次范畴化句法模式的形式化描写

2.5 动词次范畴化和句法分析n-best 句法树的关系

2.6 本章小节

第3章基于动词次范畴化规则的后处理

3.1 引言

3.2 基于动词次范畴化句法分析后处理模式匹配原理

3.3 基于规则的句法模式匹配后处理的方法

3.4 基于规则的后处理实验总流程

3.5 基于规则的后处理实验的设置

3.5.1 句法分析汉语语料库

3.5.2 斯坦福和伯克利句法分析器

3.5.3 句法分析评测标准

3.6 基于规则的实验过程和结果

3.6.1 重排序

3.6.2 结果及讨论

3.7 本章小结

第4章基于动词次范畴化统计信息的后处理

4.1 引言

4.2 基于统计的句法模式匹配后处理的方法

4.3 基于统计的实验总流程

4.4 基于统计实验的设置

4.5 基于统计实验的过程和结果

4.5.1 重排序

4.5.2 权值估计

4.5.3 重排序结果及讨论

4.5.4 改善最优解

4.5.4.1 改善最优解后处理

4.5.4.2 结果及讨论

4.6 基于规则和基于统计的两种后处理方法比较

4.7 本章小结

结论

参考文献

附录1 汉语词性标记集

附录2 汉语句法成分标记集

附录3 本文提取的汉语动词次范畴化句法模式示例

致谢

攻读学位期间发表的学术论文

攻读学位期间取得的科研成果

基于动词次范畴化的汉语句法分析后处理方法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢