基于主题模型的中英文多文档自动文摘

基于主题模型的中英文多文档自动文摘

论文摘要

随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成为研究者们关注的热门话题,多文档自动文摘在问答系统、搜索引擎和话题检测等诸多应用中都有涉及。本文深入分析了现有的多文档自动文摘技术,将主题模型应用到关键句检测中,并使用动态模型进行冗余控制,在此基础上实现了一个基于主题模型的多文档自动文摘系统。实验结果表明,本文给出的系统在TAC2008和TAC2009自动文摘评测中使用Rouge评测,取得了良好的性能。本文主要针对多文档自动文摘中的两个关键部分:关键句检测和冗余度控制进行了详细分析。在关键句检测方面,本文构建了基于主题模型的句子主题特征,实验证明句子主题特征能够在多文档自动文摘中起了很大作用,将主题特征与其他特征组合构成的特征向量也能很好地提高系统的性能。在冗余控制方面,本文将动态模型引入到句子抽取模块,并在此基础上设计了针对更新摘要的动态模型,使用该动态模型生成的更新摘要能有效地避免历史信息的冗余。在TAC2008语料上的实验表明,本文的关键句检测与冗余控制相结合后,取得了很好的系统性能,特别是在更新摘要任务中,结果高于参赛系统中的最好结果。最后本文将提出的两个关键技术应用于中文语料上,实验结果表明主题模型同样有助于中文语料多文档中句子重要度的检测,动态模型对中文多文档同样可以有效地控制冗余。但英文处理的效果明显优于中文,原因是中文语料需要经过特殊预处理,进而影响了后继的性能。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 多文档自动文摘概述
  • 1.2.1 多文档自动文摘定义
  • 1.2.2 多文档自动文摘评测
  • 1.2.3 多文档自动文摘应用
  • 1.3 本文主要工作
  • 1.4 论文结构
  • 第二章 文献综述
  • 2.1 多文档自动文摘综述
  • 2.1.1 关键句检测
  • 2.1.2 冗余度控制
  • 2.1.3 中文多文档自动文摘综述
  • 2.2 主题模型介绍
  • 2.2.1 LSA 模型
  • 2.2.2 PLSA 模型
  • 2.2.3 LDA 模型
  • 2.3 主题模型在多文档自动文摘中的应用
  • 2.4 本章小结
  • 第三章 多文档自动文摘系统框架
  • 3.1 系统框架
  • 3.2 文本预处理模块
  • 3.3 关键句检测
  • 3.4 冗余度控制
  • 3.5 文摘排序
  • 3.6 本章小结
  • 第四章 关键句检测
  • 4.1 相关工作
  • 4.2 主题特征构建
  • 4.3 主题句检测
  • 4.3.1 句子TF*IDF 特征
  • 4.3.2 与标题句相似度
  • 4.3.3 位置特征
  • 4.3.4 句子长度特征
  • 4.4 实验设置
  • 4.4.1 语料来源
  • 4.4.2 结果评测方法
  • 4.5 实验结果及分析
  • 4.5.1 不同特征对自动文摘的影响
  • 4.5.2 主题数目对自动文摘的影响
  • 4.5.3 在不同语料上的结果
  • 4.6 本章小结
  • 第五章 冗余度控制
  • 5.1 相关工作
  • 5.2 动态模型
  • 5.2.1 普通文摘动态模型
  • 5.2.2 更新文摘动态模型
  • 5.2.3 文摘抽取流程
  • 5.3 实验结果及分析
  • 5.3.1 实验设置
  • 5.3.2 基准系统
  • 5.3.3 普通文摘实验结果
  • 5.3.4 更新文摘实验结果
  • 5.3.5 与其他系统比较
  • 5.4 本章小结
  • 第六章 基于主题模型的中文多文档自动文摘
  • 6.1 中英文多文档自动文摘的区别
  • 6.2 关键句检测
  • 6.3 冗余度控制
  • 6.4 实验设置
  • 6.4.1 实验语料
  • 6.4.2 结果评测
  • 6.5 实验结果及分析
  • 6.6 本章小结
  • 第七章 总结与展望
  • 7.1 系统总结
  • 7.2 工作展望
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 攻读学位期间参加的项目
  • 致谢
  • 相关论文文献

    • [1].基于主次关系特征的自动文摘方法[J]. 计算机科学 2020(S1)
    • [2].基于篇章修辞结构的自动文摘连贯性研究[J]. 中文信息学报 2019(01)
    • [3].基于主题模型与冗余控制的中文多文档自动文摘技术研究[J]. 现代计算机(专业版) 2017(14)
    • [4].基于论文关键词和篇章结构的自动文摘抽取方法[J]. 现代计算机(专业版) 2018(13)
    • [5].基于非平衡数据分类的单文档自动文摘方法[J]. 计算机工程与科学 2012(04)
    • [6].自动文摘综述[J]. 中国美容医学 2012(16)
    • [7].基于遗传算法的查询导向式自动文摘[J]. 微计算机信息 2009(28)
    • [8].生成式自动文摘的深度学习方法综述[J]. 情报学报 2020(03)
    • [9].基于自动文摘的答案生成方法研究[J]. 计算机应用与软件 2018(12)
    • [10].面向卷烟质量评价的自动文摘系统设计[J]. 微型机与应用 2013(23)
    • [11].基于局部主题关键句抽取的多文档自动文摘方法[J]. 计算机光盘软件与应用 2013(18)
    • [12].主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用 2012(25)
    • [13].自动文摘的方法研究[J]. 计算机技术与发展 2011(08)
    • [14].基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版) 2014(01)
    • [15].面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报 2012(02)
    • [16].基于全局编码信息的生成式自动文摘模型[J]. 智能计算机与应用 2020(06)
    • [17].主题与子事件发现的多文档自动文摘[J]. 计算机工程与应用 2011(18)
    • [18].基于层次结构的生成式自动文摘[J]. 中文信息学报 2019(10)
    • [19].多文档自动文摘中的特征组合优化[J]. 计算机系统应用 2008(08)
    • [20].基于混合神经网络的单文档自动文摘模型[J]. 浙江理工大学学报(自然科学版) 2019(04)
    • [21].基于深度学习的自动文摘句排序方法[J]. 计算机工程与设计 2017(12)
    • [22].自动文摘的生成方法与评价研究[J]. 图书馆学刊 2009(05)
    • [23].自动文摘抽取的研究[J]. 科技信息 2009(01)
    • [24].基于MapReduce的多文档自动文摘的设计与实现[J]. 计算机工程与应用 2011(35)
    • [25].绿色网络智能文摘算法研究[J]. 计算机应用 2012(07)
    • [26].自动文摘技术研究现状分析[J]. 中外企业家 2011(14)
    • [27].主题模型LDA的多文档自动文摘[J]. 智能系统学报 2010(02)
    • [28].基于LSA和pLSA的多文档自动文摘[J]. 计算机工程与科学 2009(09)
    • [29].基于句群的自动文摘方法[J]. 计算机应用 2016(S1)
    • [30].图模型方法的演化式摘要研究[J]. 福建电脑 2019(05)

    标签:;  ;  ;  

    基于主题模型的中英文多文档自动文摘
    下载Doc文档

    猜你喜欢