论文摘要
句法分析是自然语言处理的一个基本问题,其主要任务是判断输入的单词序列能不能构成合乎语法的句子,构造出合乎语法的句子的句法结构,也就是应用语法规则或其它知识,依据该输入句子中单词之间的线性次序,得出一个非线性的数据结构。它有很多应用,比如机器翻译、信息获取、自动文摘等都有着重要的作用。在基于统计的句法分析方法中,最关键的两个问题是建立消解语言歧义统计模型和句法分析后处理的设计,它们决定着句法分析系统的分析正确率和效率。本文从事的工作则主要从句法分析后处理方面入手,提出了一个基于动词次范畴化的汉语句法分析后处理的方法,主要研究工作如下:1.研究现有常用的统计句法分析模型和句法分析算法,并对其进行综合分析比较,而且解释了动词次范畴化句法模式的理论、形式化描写以及次范畴化和对应的句法树之间的关系。2.用统计句法分析模型产生n-best句法分析树输出,通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,进行相应的重排序来寻找最优的句法分析树,并进行了相应的基于动词次范畴化规则方法的句法分析后处理实验。3.通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,达到改善句法分析的最优解,并进行了基于动词次范畴化统计信息方法的句法分析后处理实验。本文的实验采用了中文信息学会CIPS-ParsEval-2009竞赛语料作为训练语料,它来自于清华汉语语料库(TCT),并用中文信息学会CIPS-ParsEval-2009测试数据进行实验。实验表明本文最好的结果F1值达到88.759%接近中文信息学会句法分析CIPS-ParsEval-2009最好结果F1值88.77%,有利的证明本文的基于动词次范畴化的汉语句法分析后处理方法具有较高的句法分析效率和正确率。
论文目录
中文摘要Abstract第1章 绪论1.1 本文研究的目的和意义1.2 国内外相关研究现状1.2.1 国外的研究现状1.2.2 国内的研究现状1.3 本文的主要研究内容1.4 本文的结构安排第2章 统计语言模型和动词次范畴化理论2.1 引言2.2 基于统计的方法2.2.1 统计句法分析模型2.2.1.1 概率上下文无关文法2.2.1.2 统计句法分析模型的基本概念2.2.1.3 生成式统计模型2.2.1.4 判别式模型2.2.2 句法分析的搜索算法2.2.2.1 基于局部寻优搜索算法2.2.2.2 基于全局寻优搜索算法2.3 基于句法模式的动词次范畴化理论2.4 动词次范畴化句法模式的形式化描写2.5 动词次范畴化和句法分析n-best 句法树的关系2.6 本章小节第3章 基于动词次范畴化规则的后处理3.1 引言3.2 基于动词次范畴化句法分析后处理模式匹配原理3.3 基于规则的句法模式匹配后处理的方法3.4 基于规则的后处理实验总流程3.5 基于规则的后处理实验的设置3.5.1 句法分析汉语语料库3.5.2 斯坦福和伯克利句法分析器3.5.3 句法分析评测标准3.6 基于规则的实验过程和结果3.6.1 重排序3.6.2 结果及讨论3.7 本章小结第4章 基于动词次范畴化统计信息的后处理4.1 引言4.2 基于统计的句法模式匹配后处理的方法4.3 基于统计的实验总流程4.4 基于统计实验的设置4.5 基于统计实验的过程和结果4.5.1 重排序4.5.2 权值估计4.5.3 重排序结果及讨论4.5.4 改善最优解4.5.4.1 改善最优解后处理4.5.4.2 结果及讨论4.6 基于规则和基于统计的两种后处理方法比较4.7 本章小结结论参考文献附录1 汉语词性标记集附录2 汉语句法成分标记集附录3 本文提取的汉语动词次范畴化句法模式示例致谢攻读学位期间发表的学术论文攻读学位期间取得的科研成果
相关论文文献
标签:动词次范畴化论文; 汉语句法分析后处理论文; 句法分析论文;