基于词汇链和PageRank的多文档自动文摘研究

论文摘要

随着网络信息的剧增,网络上的信息重复性很大。同一主题的相关文档通常是成千上万,它们的内容相似,但又有所不同,各有侧重点。人们迫切需要一种能够以简洁连贯的语言提供同一主题的多文档集合中全面而重要的信息的工具,多文档自动文摘技术顺应这种需求而产生。多文档自动文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁、全面的信息,将人们从繁琐、冗余的信息中解脱出来。多文档自动文摘是信息时代发展到一定程度的必然需要,由于多文档自动文摘有良好的理论研究价值和应用前景,它已经成为文本处理领域的研究热点之一。本文首先对自动文摘的分类及发展历程进行简述,然后分别介绍单文档自动文摘及多文档自动文摘的相关技术。在此基础上,讨论了自动文摘的发展方向。其次详细介绍词汇链的概念、传统的构造算法。同时,在分析传统构造算法优缺点的基础上,提出了一种新的两阶段词汇链构造算法,实验表明,此算法提高了准确率并保证了较好的效率。然后介绍基于图的排序的方法及PageRank算法,讨论了如何将基于图的排序方法应用到文本处理中,进而介绍基于PageRank的句子抽取。最后,详细介绍基于词汇链及PageRank的多文档自动文摘系统。该系统采用词汇链表示多文档集合的子主题结构,对子主题排序,然后基于PageRank算法在各个子主题中选取句子生成文摘。这种方法能够保证文摘对多文档集合的各个重要子主题有较好的反映,而文摘本身冗余度较低。实验表明,这种综合的方法所生成的文摘质量较高。

论文目录

摘要

Abstract

第一章绪论

1.1 研究领域概述

1.2 国内外研究现状

1.3 论文的主要工作

1.4 论文的组织结构

第二章多文档自动文摘概述

2.1 文摘的分类

2.2 自动文摘发展历程

2.3 单文档自动文摘

2.3.1 基于形式特征的自动文摘

2.3.2 基于理解的自动文摘

2.3.3 基于信息抽取的自动文摘

2.2.4 基于结构的自动文摘

2.4 多文档自动文摘

2.4.1 句子排序

2.4.2 冗余消除

2.4.3 句子修剪

2.4.4 句子重组

2.5 自动文摘的评价方法

2.5.1 内部评价方法

2.5.2 外部评价方法

2.6 小结

第三章词汇链构造与应用

3.1 词汇链

3.1.1 词汇链概述

3.1.2 词汇链在自动文摘中的应用

3.2 基于WordNet的词义关系

3.2.1 WordNet

3.2.2 基于WordNet的词义关系

3.3 传统的词汇链构造算法

3.3.1 Hirst算法

3.3.2 Barzilay算法

3.3.3 实例说明

3.4 两阶段词汇链构造算法

3.5 词汇链构造算法比较分析

3.6 计算词汇链的权值

第四章基于PageRank的句子抽取

4.1 概述

4.2 基于图的排序算法

4.2.1 算法的思想

4.2.2 PageRank

4.3 基于图的句子抽取

4.3.1 粒度的选择

4.3.2 图的类型

4.3.3 句子相似度计算

4.3.4 迭代计算

4.4 基于PageRank的句子抽取

第五章基于词汇链及PageRank的多文档自动文摘系统

5.1 系统概述

5.2 系统的设计实现

5.2.1 预处理模块

5.2.2 词汇链模块

5.2.3 句子抽取模块

5.2.4 词义关系计算模块

5.3 实验分析

5.3.1 采用的实验语料

5.3.2 评测结果

第六章结束语

6.1 总结

6.2 进一步工作

参考文献

研究生期间发表的论文和参加的项目

致谢

基于词汇链和PageRank的多文档自动文摘研究

论文摘要

论文目录

相关论文文献

猜你喜欢