论文摘要
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。
论文目录
摘要Abstract第一章 自动文摘介绍1.1 自动文摘的背景和意义1.1.1 文本理解会议简介1.2 自动文摘概述1.2.1 文摘的基本概念1.2.2 自动文摘系统的基本框架1.2.3 自动文摘的主要技术1.2.4 自动文摘的研究历史和现状1.3 自动文摘系统评价1.3.1 内部评价和外部评价1.3.2 人工评价和自动评价1.4 自动文摘与自然语言处理领域其它一些任务的关系1.5 本文组织结构第二章 面向查询的多文档自动文摘中多策略的研究2.1 介绍2.1.1 面向查询的多文档自动文摘任务2.1.2 相关工作2.2 基于机器学习方法的文摘系统2.2.1 特征介绍2.2.2 句子相似度计算2.2.2.1 WordNet简介2.2.2.2 基于WordNet的句子相似度计算2.2.3 用最大熵模型对句子评分2.2.3.1 最大熵模型简介2.2.3.2 最大熵模型的训练和应用2.2.4 冗余去除模块2.2.5 文摘粒度分析2.2.6 实验结果及分析2.3 基于语义扩展的文摘系统2.3.1 基于WordNet的语义扩展方法2.3.2 词义消歧2.3.3 系统流程2.3.4 实验结果及分析2.4 基于查询扩展的文摘系统2.4.1 图排序算法及相关工作2.4.1.1 PageRank算法简介2.4.1.2 图排序算法在自动文摘中的相关工作2.4.2 基于查询扩展的文摘系统2.4.2.1 系统框架2.4.2.2 基于图模型的句子排序2.4.2.3 查询扩展算法描述2.4.2.4 句子重新排序2.4.2.5 去除冗余算法2.4.3 实验结果及分析2.5 本章小结第三章 文摘连贯性自动评价技术的研究3.1 介绍3.1.1 文摘合成3.1.2 文摘连贯性研究的意义3.2 连贯性相关工作3.3 基于实体的连贯性评价基本模型3.4 连贯性评价模型改进3.4.1 指代消解的作用3.4.2 特征计算3.4.2.1 用邻居信息进行特征细化3.4.2.2 非相邻句间转移特征3.4.2.3 实验结果3.4.3 实体网格的重建3.4.3.1 实体选择的重要性分析3.4.3.2 基于潜在语义分析的实体网格重建3.4.3.3 实验结果3.5 本章小结第四章 总结与展望4.1 工作总结4.2 未来展望参考文献攻读博士期间主要工作致谢
相关论文文献
标签:自动文摘论文; 自然语言处理论文; 机器学习论文; 文摘评测论文; 文本连贯性论文;