
论文摘要
随着网络信息的剧增,网络上的信息重复性很大。同一主题的相关文档通常是成千上万,它们的内容相似,但又有所不同,各有侧重点。人们迫切需要一种能够以简洁连贯的语言提供同一主题的多文档集合中全面而重要的信息的工具,多文档自动文摘技术顺应这种需求而产生。多文档自动文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。多文档自动文摘是信息时代发展到一定程度的必然需要,由于多文档自动文摘有良好的理论研究价值和应用前景,它已经成为文本处理领域的研究热点之一。本文首先对自动文摘的分类及发展历程进行简述,然后分别介绍单文档自动文摘及多文档自动文摘的相关技术。在此基础上,讨论了自动文摘的发展方向。其次详细介绍词汇链的概念、传统的构造算法。同时,在分析传统构造算法优缺点的基础上,提出了一种新的两阶段词汇链构造算法,实验表明,此算法提高了准确率并保证了较好的效率。然后介绍基于图的排序的方法及PageRank算法,讨论了如何将基于图的排序方法应用到文本处理中,进而介绍基于PageRank的句子抽取。最后,详细介绍基于词汇链及PageRank的多文档自动文摘系统。该系统采用词汇链表示多文档集合的子主题结构,对子主题排序,然后基于PageRank算法在各个子主题中选取句子生成文摘。这种方法能够保证文摘对多文档集合的各个重要子主题有较好的反映,而文摘本身冗余度较低。实验表明,这种综合的方法所生成的文摘质量较高。
论文目录
摘要Abstract第一章 绪论1.1 研究领域概述1.2 国内外研究现状1.3 论文的主要工作1.4 论文的组织结构第二章 多文档自动文摘概述2.1 文摘的分类2.2 自动文摘发展历程2.3 单文档自动文摘2.3.1 基于形式特征的自动文摘2.3.2 基于理解的自动文摘2.3.3 基于信息抽取的自动文摘2.2.4 基于结构的自动文摘2.4 多文档自动文摘2.4.1 句子排序2.4.2 冗余消除2.4.3 句子修剪2.4.4 句子重组2.5 自动文摘的评价方法2.5.1 内部评价方法2.5.2 外部评价方法2.6 小结第三章 词汇链构造与应用3.1 词汇链3.1.1 词汇链概述3.1.2 词汇链在自动文摘中的应用3.2 基于WordNet的词义关系3.2.1 WordNet3.2.2 基于WordNet的词义关系3.3 传统的词汇链构造算法3.3.1 Hirst算法3.3.2 Barzilay算法3.3.3 实例说明3.4 两阶段词汇链构造算法3.5 词汇链构造算法比较分析3.6 计算词汇链的权值第四章 基于PageRank的句子抽取4.1 概述4.2 基于图的排序算法4.2.1 算法的思想4.2.2 PageRank4.3 基于图的句子抽取4.3.1 粒度的选择4.3.2 图的类型4.3.3 句子相似度计算4.3.4 迭代计算4.4 基于PageRank的句子抽取第五章 基于词汇链及PageRank的多文档自动文摘系统5.1 系统概述5.2 系统的设计实现5.2.1 预处理模块5.2.2 词汇链模块5.2.3 句子抽取模块5.2.4 词义关系计算模块5.3 实验分析5.3.1 采用的实验语料5.3.2 评测结果第六章 结束语6.1 总结6.2 进一步工作参考文献研究生期间发表的论文和参加的项目致谢
相关论文文献
标签:多文档自动文摘论文; 词汇链论文;