论文摘要
句法分析是连接词法分析和语义分析的桥梁,在自然语言处理中有着重要的意义。依存文法是句法中的一种,相比于短语结构文法,它直接刻画单词之间的依存关系,具有描述简洁、易于分析处理等特点,更是特别适合于词序较为自由的中文,在机器翻译、自动文摘、文档分类、问答系统等任务中有着广泛的应用,受到了研究人员的关注。当句子较长时,统计依存句法分析效率变低、结果变差。现有的一般做法是利用标点将其切割为短句,先对短句进行依存分析,然后再对短句中心词组成的新句子进行分析,最后把短句分析结果嵌入进来组成长句的依存分析结果。该做法的问题是,短句的依存错误会传播到后续步骤中,短句中心词之间的依存分析结果往往也不是很理想。针对以上问题,论文做了以下工作:1、提出了一种新的基于标点切割的依存分析方法。首先对长句进行依存分析;然后基于标点对长句进行切割,再对各短句进行依存分析;最后对两个分析结果进行综合得到最终分析结果。该方法可以弥补错误传播和短句间依存分析结果较差的一些缺陷。实验表明,该方法对提高依存句法分析结果的质量有着较大的帮助。2、为了进一步提升长句切割的精度,论文还借助序列化标注模型CRF对标点符号的功能进行了标记,根据不同的功能确定是否进行切割。实验表明使用CRF对标点进行标记在长句切割中有着积极的提升意义。3、设计并实现了依存分析结果的可视化交互工具,能以多种形式展示依存树并进行错误的高亮显示,该工具提供了高级搜索和统计功能,还可以对语料进行标注,满足了依存分析中的绝大部分应用需求。