论文摘要
句法分析是自然语言处理中的关键性问题之一,其主要任务是自动识别句子的句法结构。同时句法分析也是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。本文介绍了自然语言处理中句法分析的相关理论和相关技术,对现有的句法分析算法和模型进行了研究比较。在总结前人研究成果的基础上,对传统的基于Chart的句法分析算法加以改进,采用了自底向上与自顶向下相结合的线图分析方法,同时在规则的选取上采用了动态的排序方法,使得分析效率和分析结果的准确率有一定的提高。根据实际应用,确定了一套词性标记集和短语标记集,并根据常用的句型,设计了一套基于上下文无关的语法规则库。在此基础上,分析、设计了基于最大词长匹配算法的分词模块、基于隐马尔科夫的词性标注模块和基于改进的线图分析算法的句法分析模块,进而实现了一个完整的汉语句法分析原型系统。最后,针对复杂长句句法分析的困难,通过分析标点符号在长句构成上的作用和规律,给出了一种规则分层的句法分析方法。该方法把标点符号作为划分标志,根据这些划分标志将复杂长句分割为句子单元序列独立进行第一级分析,然后把第一级分析得到的结果作为第二级分析的输入,利用二次规则匹配,最终输出结果为完整的句法分析树。根据本文确定的词性标记集和规则库,分别使用北大计算语言研究所制作的PFR人民日报标注语料库和TCT973树库作为训练样本,从中抽取了若干文本进行小规模中文文本试验测试,验证了基于Chart的改进算法和长句规则分层句法分析可行有效。
论文目录
摘要ABSTRACT1 绪论1.1 问题的提出1.2 国内外研究的现状1.2.1 基于规则的方法1.2.2 基于统计的方法1.3 汉语句法分析面临的困难1.4 本文的主要研究工作1.5 论文框架2 句法分析概述2.1 形式语法体系2.1.1 乔姆斯基层次体系2.1.2 乔姆斯基的形式句法理论2.1.3 中心词驱动的短语结构语法和词汇功能语法2.1.4 依存语法2.1.5 链语法2.1.6 范畴语法2.2 句法分析算法2.2.1 常见的分析算法2.2.2 LR 算法2.2.3 Chart 算法2.2.4 其他的句法分析算法2.3 句法分析算法的比较3 Chart 算法的改进3.1 规则的改进3.2 算法的改进3.2.1 自顶向下和自底向上分析算法3.2.2 自底向上与自顶向下相结合的分析算法3.2.3 改进算法的基本流程4 句法分析系统的分析、设计与实现4.1 系统的目标和功能4.1.1 系统的目标4.1.2 系统的功能4.2 系统设计4.2.1 数据库设计4.2.2 系统的总体结构设计4.3 句法分析系统的实现4.3.1 分词模块4.3.2 词性标注模块4.3.3 句法分析模块4.4 试验测试与分析4.4.1 实验环境4.4.2 实验数据4.4.3 测试结果与分析5 汉语长句句法分析5.1 引言5.2 研究现状5.3 规则分层方法的提出5.3.1 中英文标点符号的异同分析5.3.2 长句分析的特殊困难5.3.3 标点符号在长句分析中的应用5.4 规则分层方法5.4.1 规则分层方法中“划分”标志的确定5.4.2 规则分层方法的语法规则5.4.3 规则分层方法算法描述5.4.4 规则分层方法的实现5.5 实验结果与分析5.5.1 测试用句5.5.2 实验结果6 结论6.1 总结6.2 展望致谢参考文献附录
相关论文文献
标签:汉语句法分析论文; 算法论文; 规则论文; 词性标注论文; 分词论文;