论文摘要
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成为研究者们关注的热门话题,多文档自动文摘在问答系统、搜索引擎和话题检测等诸多应用中都有涉及。本文深入分析了现有的多文档自动文摘技术,将主题模型应用到关键句检测中,并使用动态模型进行冗余控制,在此基础上实现了一个基于主题模型的多文档自动文摘系统。实验结果表明,本文给出的系统在TAC2008和TAC2009自动文摘评测中使用Rouge评测,取得了良好的性能。本文主要针对多文档自动文摘中的两个关键部分:关键句检测和冗余度控制进行了详细分析。在关键句检测方面,本文构建了基于主题模型的句子主题特征,实验证明句子主题特征能够在多文档自动文摘中起了很大作用,将主题特征与其他特征组合构成的特征向量也能很好地提高系统的性能。在冗余控制方面,本文将动态模型引入到句子抽取模块,并在此基础上设计了针对更新摘要的动态模型,使用该动态模型生成的更新摘要能有效地避免历史信息的冗余。在TAC2008语料上的实验表明,本文的关键句检测与冗余控制相结合后,取得了很好的系统性能,特别是在更新摘要任务中,结果高于参赛系统中的最好结果。最后本文将提出的两个关键技术应用于中文语料上,实验结果表明主题模型同样有助于中文语料多文档中句子重要度的检测,动态模型对中文多文档同样可以有效地控制冗余。但英文处理的效果明显优于中文,原因是中文语料需要经过特殊预处理,进而影响了后继的性能。
论文目录
相关论文文献
- [1].基于主次关系特征的自动文摘方法[J]. 计算机科学 2020(S1)
- [2].基于篇章修辞结构的自动文摘连贯性研究[J]. 中文信息学报 2019(01)
- [3].基于主题模型与冗余控制的中文多文档自动文摘技术研究[J]. 现代计算机(专业版) 2017(14)
- [4].基于论文关键词和篇章结构的自动文摘抽取方法[J]. 现代计算机(专业版) 2018(13)
- [5].基于非平衡数据分类的单文档自动文摘方法[J]. 计算机工程与科学 2012(04)
- [6].自动文摘综述[J]. 中国美容医学 2012(16)
- [7].基于遗传算法的查询导向式自动文摘[J]. 微计算机信息 2009(28)
- [8].生成式自动文摘的深度学习方法综述[J]. 情报学报 2020(03)
- [9].基于自动文摘的答案生成方法研究[J]. 计算机应用与软件 2018(12)
- [10].面向卷烟质量评价的自动文摘系统设计[J]. 微型机与应用 2013(23)
- [11].基于局部主题关键句抽取的多文档自动文摘方法[J]. 计算机光盘软件与应用 2013(18)
- [12].主题信息的中文多文档自动文摘系统[J]. 计算机工程与应用 2012(25)
- [13].自动文摘的方法研究[J]. 计算机技术与发展 2011(08)
- [14].基于隐主题马尔科夫模型的多特征自动文摘[J]. 北京大学学报(自然科学版) 2014(01)
- [15].面向冗余度控制的中文多文档自动文摘[J]. 中文信息学报 2012(02)
- [16].基于全局编码信息的生成式自动文摘模型[J]. 智能计算机与应用 2020(06)
- [17].主题与子事件发现的多文档自动文摘[J]. 计算机工程与应用 2011(18)
- [18].基于层次结构的生成式自动文摘[J]. 中文信息学报 2019(10)
- [19].多文档自动文摘中的特征组合优化[J]. 计算机系统应用 2008(08)
- [20].基于混合神经网络的单文档自动文摘模型[J]. 浙江理工大学学报(自然科学版) 2019(04)
- [21].基于深度学习的自动文摘句排序方法[J]. 计算机工程与设计 2017(12)
- [22].自动文摘的生成方法与评价研究[J]. 图书馆学刊 2009(05)
- [23].自动文摘抽取的研究[J]. 科技信息 2009(01)
- [24].基于MapReduce的多文档自动文摘的设计与实现[J]. 计算机工程与应用 2011(35)
- [25].绿色网络智能文摘算法研究[J]. 计算机应用 2012(07)
- [26].自动文摘技术研究现状分析[J]. 中外企业家 2011(14)
- [27].主题模型LDA的多文档自动文摘[J]. 智能系统学报 2010(02)
- [28].基于LSA和pLSA的多文档自动文摘[J]. 计算机工程与科学 2009(09)
- [29].基于句群的自动文摘方法[J]. 计算机应用 2016(S1)
- [30].图模型方法的演化式摘要研究[J]. 福建电脑 2019(05)