基于潜在语义分析的多网页自动文摘研究

基于潜在语义分析的多网页自动文摘研究

论文摘要

随着Internet技术的迅速发展,Web资源的更新频率令人瞠目结舌。然而,在Web信息资源迅猛发展的同时,人们不能忽视信息极大丰富而知识相对匮乏的问题。所以,如何获得对用户有价值的信息就变得至关重要。目前,人们获取信息的主要方法是通过搜索引擎,但是搜索引擎往往会返回大量冗余的信息,因此在阅读时会浪费大量的人力物力,并且不能提供给用户简洁、直接的答案,所以多网页自动文摘技术应运而生。多网页自动文摘技术的目标是致力于将信息全面的、简洁的文档直接呈现给用户,从而提高用户获取信息的效率。它的重要性是不言而喻的,其应用前景将非常广泛。本文的目标是研究多网页的自动文摘,主要研究基于潜在语义分析(Latent Semantic Analysis,LSA)的多网页自动文摘系统理论和实现方法。根据潜在语义分析理论,对多网页进行了语义段的划分、句子聚类、生成初始文摘并对其加工得到最后的文摘。首先提出多网页语义段的概念和基于LSA的多网页语义段划分算法,对传统的权重计算方法进行改进,使得语义段的划分更加精确;其次改进K-Medoids聚类算法,使得K可计算,实现了段落的聚类和句子的聚类,依据句子的长度、句子中关键词的重要性以及这些关键词是否出现在标题中这三个因素对句子权重的影响来改进句子权重的计算方法,并利用HowNet计算句子间相似度。然后,对基于LSA多网页自动文摘系统进行了详细的功能分析,包括具体模块的设计、实现方法和关键技术。最后编程实现了这个多网页自动文摘系统。该系统将统计和语义分析两种方法相结合,采用基于语义段的想法组合文摘,使得文摘连贯性、全面性都有了提高。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 自动文摘技术的研究背景
  • 1.2 自动文摘技术的研究意义
  • 1.3 自动文摘技术的研究现状
  • 1.4 本文的主要工作和创新点
  • 1.5 论文的结构
  • 第二章 自动文摘的综述
  • 2.1 文摘的概念
  • 2.2 自动文摘的分类
  • 2.3 自动文摘的方法
  • 2.4 自动文摘的评价方法
  • 第三章 基于LSA 的多网页语义段划分
  • 3.1 多网页语义段的定义
  • 3.2 LSA(潜在语义分析)技术
  • 3.3 基于LSA 的多网页语义段划分算法
  • 第四章 语义段中句子聚类技术
  • 4.1 句子权重的计算
  • 4.2 语义段中句子聚类的算法
  • 第五章 初始文摘的生成和加工
  • 5.1 初始文摘的生成
  • 5.2 初始文摘的加工
  • 5.3 文摘的多样化发展
  • 第六章 基于LSA 多网页自动文摘系统的设计与实现
  • 6.1 多网页自动文摘系统的总体设计
  • 6.2 网页预处理模块
  • 6.3 语义段划分模块
  • 6.4 语义段中句子聚类模块
  • 6.5 文摘生成模块
  • 6.6 多网页自动文摘系统的实现
  • 第七章 总结与展望
  • 7.1 研究总结
  • 7.2 研究展望
  • 致谢
  • 参考文献
  • 附录
  • 攻读学位期间的研究成果
  • 附件
  • 相关论文文献

    • [1].基于主次关系特征的自动文摘方法[J]. 计算机科学 2020(S1)
    • [2].基于篇章修辞结构的自动文摘连贯性研究[J]. 中文信息学报 2019(01)
    • [3].基于主题模型与冗余控制的中文多文档自动文摘技术研究[J]. 现代计算机(专业版) 2017(14)
    • [4].基于论文关键词和篇章结构的自动文摘抽取方法[J]. 现代计算机(专业版) 2018(13)
    • [5].基于非平衡数据分类的单文档自动文摘方法[J]. 计算机工程与科学 2012(04)
    • [6].自动文摘综述[J]. 中国美容医学 2012(16)
    • [7].基于遗传算法的查询导向式自动文摘[J]. 微计算机信息 2009(28)
    • [8].生成式自动文摘的深度学习方法综述[J]. 情报学报 2020(03)
    • [9].基于自动文摘的答案生成方法研究[J]. 计算机应用与软件 2018(12)
    • [10].面向卷烟质量评价的自动文摘系统设计[J]. 微型机与应用 2013(23)
    • [11].基于局部主题关键句抽取的多文档自动文摘方法[J]. 计算机光盘软件与应用 2013(18)
    • [12].主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用 2012(25)
    • [13].自动文摘的方法研究[J]. 计算机技术与发展 2011(08)
    • [14].基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版) 2014(01)
    • [15].面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报 2012(02)
    • [16].基于全局编码信息的生成式自动文摘模型[J]. 智能计算机与应用 2020(06)
    • [17].主题与子事件发现的多文档自动文摘[J]. 计算机工程与应用 2011(18)
    • [18].基于层次结构的生成式自动文摘[J]. 中文信息学报 2019(10)
    • [19].多文档自动文摘中的特征组合优化[J]. 计算机系统应用 2008(08)
    • [20].基于混合神经网络的单文档自动文摘模型[J]. 浙江理工大学学报(自然科学版) 2019(04)
    • [21].基于深度学习的自动文摘句排序方法[J]. 计算机工程与设计 2017(12)
    • [22].自动文摘的生成方法与评价研究[J]. 图书馆学刊 2009(05)
    • [23].自动文摘抽取的研究[J]. 科技信息 2009(01)
    • [24].基于MapReduce的多文档自动文摘的设计与实现[J]. 计算机工程与应用 2011(35)
    • [25].绿色网络智能文摘算法研究[J]. 计算机应用 2012(07)
    • [26].自动文摘技术研究现状分析[J]. 中外企业家 2011(14)
    • [27].主题模型LDA的多文档自动文摘[J]. 智能系统学报 2010(02)
    • [28].基于LSA和pLSA的多文档自动文摘[J]. 计算机工程与科学 2009(09)
    • [29].基于句群的自动文摘方法[J]. 计算机应用 2016(S1)
    • [30].图模型方法的演化式摘要研究[J]. 福建电脑 2019(05)

    标签:;  ;  ;  ;  ;  ;  

    基于潜在语义分析的多网页自动文摘研究
    下载Doc文档

    猜你喜欢