面向查询的多文档自动文摘关键技术研究

面向查询的多文档自动文摘关键技术研究

论文摘要

随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。

论文目录

  • 摘要
  • Abstract
  • 第一章 自动文摘介绍
  • 1.1 自动文摘的背景和意义
  • 1.1.1 文本理解会议简介
  • 1.2 自动文摘概述
  • 1.2.1 文摘的基本概念
  • 1.2.2 自动文摘系统的基本框架
  • 1.2.3 自动文摘的主要技术
  • 1.2.4 自动文摘的研究历史和现状
  • 1.3 自动文摘系统评价
  • 1.3.1 内部评价和外部评价
  • 1.3.2 人工评价和自动评价
  • 1.4 自动文摘与自然语言处理领域其它一些任务的关系
  • 1.5 本文组织结构
  • 第二章 面向查询的多文档自动文摘中多策略的研究
  • 2.1 介绍
  • 2.1.1 面向查询的多文档自动文摘任务
  • 2.1.2 相关工作
  • 2.2 基于机器学习方法的文摘系统
  • 2.2.1 特征介绍
  • 2.2.2 句子相似度计算
  • 2.2.2.1 WordNet简介
  • 2.2.2.2 基于WordNet的句子相似度计算
  • 2.2.3 用最大熵模型对句子评分
  • 2.2.3.1 最大熵模型简介
  • 2.2.3.2 最大熵模型的训练和应用
  • 2.2.4 冗余去除模块
  • 2.2.5 文摘粒度分析
  • 2.2.6 实验结果及分析
  • 2.3 基于语义扩展的文摘系统
  • 2.3.1 基于WordNet的语义扩展方法
  • 2.3.2 词义消歧
  • 2.3.3 系统流程
  • 2.3.4 实验结果及分析
  • 2.4 基于查询扩展的文摘系统
  • 2.4.1 图排序算法及相关工作
  • 2.4.1.1 PageRank算法简介
  • 2.4.1.2 图排序算法在自动文摘中的相关工作
  • 2.4.2 基于查询扩展的文摘系统
  • 2.4.2.1 系统框架
  • 2.4.2.2 基于图模型的句子排序
  • 2.4.2.3 查询扩展算法描述
  • 2.4.2.4 句子重新排序
  • 2.4.2.5 去除冗余算法
  • 2.4.3 实验结果及分析
  • 2.5 本章小结
  • 第三章 文摘连贯性自动评价技术的研究
  • 3.1 介绍
  • 3.1.1 文摘合成
  • 3.1.2 文摘连贯性研究的意义
  • 3.2 连贯性相关工作
  • 3.3 基于实体的连贯性评价基本模型
  • 3.4 连贯性评价模型改进
  • 3.4.1 指代消解的作用
  • 3.4.2 特征计算
  • 3.4.2.1 用邻居信息进行特征细化
  • 3.4.2.2 非相邻句间转移特征
  • 3.4.2.3 实验结果
  • 3.4.3 实体网格的重建
  • 3.4.3.1 实体选择的重要性分析
  • 3.4.3.2 基于潜在语义分析的实体网格重建
  • 3.4.3.3 实验结果
  • 3.5 本章小结
  • 第四章 总结与展望
  • 4.1 工作总结
  • 4.2 未来展望
  • 参考文献
  • 攻读博士期间主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向查询的多文档自动文摘关键技术研究
    下载Doc文档

    猜你喜欢