长句切割在依存句法分析中的应用

长句切割在依存句法分析中的应用

论文摘要

句法分析是连接词法分析和语义分析的桥梁,在自然语言处理中有着重要的意义。依存文法是句法中的一种,相比于短语结构文法,它直接刻画单词之间的依存关系,具有描述简洁、易于分析处理等特点,更是特别适合于词序较为自由的中文,在机器翻译、自动文摘、文档分类、问答系统等任务中有着广泛的应用,受到了研究人员的关注。当句子较长时,统计依存句法分析效率变低、结果变差。现有的一般做法是利用标点将其切割为短句,先对短句进行依存分析,然后再对短句中心词组成的新句子进行分析,最后把短句分析结果嵌入进来组成长句的依存分析结果。该做法的问题是,短句的依存错误会传播到后续步骤中,短句中心词之间的依存分析结果往往也不是很理想。针对以上问题,论文做了以下工作:1、提出了一种新的基于标点切割的依存分析方法。首先对长句进行依存分析;然后基于标点对长句进行切割,再对各短句进行依存分析;最后对两个分析结果进行综合得到最终分析结果。该方法可以弥补错误传播和短句间依存分析结果较差的一些缺陷。实验表明,该方法对提高依存句法分析结果的质量有着较大的帮助。2、为了进一步提升长句切割的精度,论文还借助序列化标注模型CRF对标点符号的功能进行了标记,根据不同的功能确定是否进行切割。实验表明使用CRF对标点进行标记在长句切割中有着积极的提升意义。3、设计并实现了依存分析结果的可视化交互工具,能以多种形式展示依存树并进行错误的高亮显示,该工具提供了高级搜索和统计功能,还可以对语料进行标注,满足了依存分析中的绝大部分应用需求。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 依存句法分析概述
  • 1.2.1 依存的概念
  • 1.2.2 依存结构的表示
  • 1.2.3 与短语结构文法的比较
  • 1.2.4 依存句法分析技术回顾
  • 1.3 本文研究内容和主要工作
  • 1.4 本文的组织结构
  • 第2章 统计依存分析研究现状
  • 2.1 依存句法分析方法概述
  • 2.2 基于SPAN的CYK算法
  • 2.3 最大生成树算法
  • 2.4 移进归约算法
  • 2.5 依存句法分析的评价方法
  • 2.6 本章小结
  • 第3章 长句切割以及基于它的依存分析方法
  • 3.1 长句切割的思想
  • 3.2 基于长句切割的依存分析方法
  • 3.3 长句切割中标点功能的划分
  • 3.4 实验与分析
  • 3.4.1 实验语料
  • 3.4.2 实验方法
  • 3.4.3 结果与分析
  • 3.5 本章小结
  • 第4章 依存结果的可视化交互软件
  • 4.1 依存树可视化工具现状
  • 4.2 DependencyViewer的设计与实现
  • 4.2.1 文件输入输出
  • 4.2.2 显示与编辑
  • 4.2.3 搜索模块
  • 4.2.4 统计模块
  • 4.3 本章小结
  • 第5章 结论与展望
  • 5.1 论文的主要工作
  • 5.2 进一步的工作
  • 参考文献
  • 附录
  • 附录1 硕士生期间参与的科研项目
  • 附录2 硕士生期间发表和录用的论文
  • 附录3 硕士生期间获奖情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    长句切割在依存句法分析中的应用
    下载Doc文档

    猜你喜欢