互联网文本自动文摘技术的研究

互联网文本自动文摘技术的研究

论文摘要

互联网的不断发展为用户提供了丰富的信息,同时也促进了信息处理技术地进步。面对如此浩瀚的信息,人们需要寻找一条能够快速、准确获得信息的途径。信息检索与自动文摘技术显得非常重要,检索技术可以让人们有效地获取所需信息,而文摘技术则可以节省用户的时间,帮助他们提取主要信息,该技术有利于信息再处理。本文的主要工作包括以下几个方面:第一,总结了文本自动文摘技术的研究现状。针对互联网文本,本文提出了网页噪音过滤法和基于树解析内容提取法。根据网页页面特征去除网页中标签等无用信息,从而高效地去除与网页中心内容无关的垃圾信息,最终只保留网页的中心内容。第二,在介绍和分析现有文本自动文摘技术的基础上,实现了一个互联网文本自动文摘系统。该系统由文本内容提取模块、预处理模块、文本聚类模块和文摘生成模块四个部分组成。本文成功地将网页噪音过滤法和基于树解析内容提取法应用在文本内容提取模块中,从互联网网页中提取出我们所需要的文本内容,然后进行文摘的抽取和生成。第三,利用1000篇网页进行了实验,实验结果表明该系统得到的自动文摘内容质量较高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究意义
  • 1.2 国内外研究概况
  • 1.3 论文的主要研究内容
  • 1.4 论文的内容安排
  • 第2章 文本自动文摘的相关技术
  • 2.1 文本自动文摘技术与其他相关技术的关系
  • 2.2 单文档自动文摘技术
  • 2.3 多文档自动文摘技术
  • 2.4 文本自动文摘的评价方法
  • 2.4.1 内部评测方法
  • 2.4.2 外部评测方法
  • 第3章 互联网文本的内容提取技术
  • 3.1 网页的特点
  • 3.2 网页噪音信息过滤
  • 3.3 网页内容提取的相关方法
  • 第4章 互联网文本自动文摘系统的设计与实现
  • 4.1 系统总体流程图
  • 4.1.1 文本内容提取模块
  • 4.1.2 预处理模块
  • 4.1.3 文本聚类模块
  • 4.1.4 文摘生成模块
  • 4.2 互联网文本自动文摘系统界面
  • 4.3 实验结果与分析
  • 第5章 总结与展望
  • 5.1 本文总结
  • 5.2 下一步工作
  • 参考文献
  • 攻读硕士学位期间参加的科研项目与公开发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于主次关系特征的自动文摘方法[J]. 计算机科学 2020(S1)
    • [2].基于篇章修辞结构的自动文摘连贯性研究[J]. 中文信息学报 2019(01)
    • [3].基于主题模型与冗余控制的中文多文档自动文摘技术研究[J]. 现代计算机(专业版) 2017(14)
    • [4].基于论文关键词和篇章结构的自动文摘抽取方法[J]. 现代计算机(专业版) 2018(13)
    • [5].基于非平衡数据分类的单文档自动文摘方法[J]. 计算机工程与科学 2012(04)
    • [6].自动文摘综述[J]. 中国美容医学 2012(16)
    • [7].基于遗传算法的查询导向式自动文摘[J]. 微计算机信息 2009(28)
    • [8].生成式自动文摘的深度学习方法综述[J]. 情报学报 2020(03)
    • [9].基于自动文摘的答案生成方法研究[J]. 计算机应用与软件 2018(12)
    • [10].面向卷烟质量评价的自动文摘系统设计[J]. 微型机与应用 2013(23)
    • [11].基于局部主题关键句抽取的多文档自动文摘方法[J]. 计算机光盘软件与应用 2013(18)
    • [12].主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用 2012(25)
    • [13].自动文摘的方法研究[J]. 计算机技术与发展 2011(08)
    • [14].基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版) 2014(01)
    • [15].面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报 2012(02)
    • [16].基于全局编码信息的生成式自动文摘模型[J]. 智能计算机与应用 2020(06)
    • [17].主题与子事件发现的多文档自动文摘[J]. 计算机工程与应用 2011(18)
    • [18].基于层次结构的生成式自动文摘[J]. 中文信息学报 2019(10)
    • [19].多文档自动文摘中的特征组合优化[J]. 计算机系统应用 2008(08)
    • [20].基于混合神经网络的单文档自动文摘模型[J]. 浙江理工大学学报(自然科学版) 2019(04)
    • [21].基于深度学习的自动文摘句排序方法[J]. 计算机工程与设计 2017(12)
    • [22].自动文摘的生成方法与评价研究[J]. 图书馆学刊 2009(05)
    • [23].自动文摘抽取的研究[J]. 科技信息 2009(01)
    • [24].基于MapReduce的多文档自动文摘的设计与实现[J]. 计算机工程与应用 2011(35)
    • [25].绿色网络智能文摘算法研究[J]. 计算机应用 2012(07)
    • [26].自动文摘技术研究现状分析[J]. 中外企业家 2011(14)
    • [27].主题模型LDA的多文档自动文摘[J]. 智能系统学报 2010(02)
    • [28].基于LSA和pLSA的多文档自动文摘[J]. 计算机工程与科学 2009(09)
    • [29].基于句群的自动文摘方法[J]. 计算机应用 2016(S1)
    • [30].图模型方法的演化式摘要研究[J]. 福建电脑 2019(05)

    标签:;  ;  ;  

    互联网文本自动文摘技术的研究
    下载Doc文档

    猜你喜欢