摘录式多文档摘要技术的研究

摘录式多文档摘要技术的研究

论文摘要

随着网络的发展,信息获取变得越来越容易,人们日常所需要处理的信息量也越来越大。如何从众多的文档中提取出重要的信息,以帮助人们做快速的浏览和撷取,是一项迫切的任务。多文档摘要技术因此而成为了最近几年的研究热点。本文主要研究的是抽取式通用型多文档摘要,提出了一种基于生成性文本主题概率模型的多文档摘要技术,和一种基于排序学习的多文档摘要技术。本文的主要贡献有以下几点:1.在一个贪婪算法的框架内研究了如何利用主题特征生成高质量的多文档摘要。在这种框架下,句子的选取最终归结为度量每个句子对摘要的主题构建的贡献大小。使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为句子建模,以捕捉深层次的主题信息。通过分析摘要任务中文本和摘要的内在关系,我们将之量化为一种概率表示,并在此基础上提出了两种有效的句子打分方法。在DUC2002会议中使用的通用性多文档文摘测试集上做了实验,使用ROUGE自动评测工具对各种方作做了评估。结果表明,我们的方法优于单纯基于词频的方法和其他使用了主题模型的方法。2.提出了一种通过学习摘要质量预测函数来搜索高质量摘要的新思路。传统的方法所显式或隐式地使用的质量预测函数都是启发式的,缺乏客观性。我们认为如果没有一个客观的摘要质量预测函数,对高质量摘要的搜索总有些盲目。本文中,我们讨论了这种预测函数的可能的形式,论证了获取这样一个客观的预测函数的必要性和可行性,分析了学习这种预测函数对摘要质量底层特征的要求和一些量化的择优方法,并展望了这种较为客观的摘要预测函数的使用方法。3.我们设计了一种学习预测函数的方法,并在此之上构建了一个自动摘要系统RBSS。我们借鉴IR&ML领域的排序学习方法,学习得到一个排序函数。不同于可以预测摘要质量分值的回归函数,我们所学到的排序函数只能够按照摘要的质量对其做个排序。我们认为这种按质量高低给出的顺序就可以帮助我们做高质量摘要的搜索。我们在基本的一元词频和其在句内的共现信息上,设计了四个排序特征。这些特征有较好的鲁棒性,不会随原文的改动而对排序函数造成大的影响。我们设计了一种效果很好的训练集的构造方法。在这些工作的基础上,我们构建了RBSS。RBSS使用遗传规划作为高质量摘要的搜索算法,其中每个摘要的适应度由当时其在总体中的排名位置决定,而该顺序则由学习得到的排名函数给出。我们在DUC2002数据集上用ROUGE工具做了评估,我们的方法生成的摘要比当年会议上最好的系统所得ROUGE分值还高。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 多文档自动摘要技术的国内外研究现状
  • 1.3 论文的主要工作
  • 1.4 论文的组织结构
  • 第二章 基于主题模型LDA的多文档自动摘要技术
  • 2.1 多文档自动摘要的基本概念
  • 2.2 一种宽泛的贪婪算法框架
  • 2.3 LDA主题模型
  • 2.3.1 Dirichlet分布
  • 2.3.2 LDA文集生成过程
  • 2.3.3 推断与参数估计
  • 2.4 文本与主题的关系分析与量化
  • 2.5 句子打分函数
  • 2.5.1 基于概率的简单打分函数
  • 2.5.2 基于主题余量的打分函数
  • 2.6 实验与结果分析
  • 2.6.1 实验设计
  • 2.6.2 实验结果
  • 2.6.3 句子长度影响评估
  • 2.7 本章小结
  • 第三章 客观摘要质量预测函数的必要性论证和可行性分析
  • 3.1 摘要质量预测函数的概念
  • 3.2 摘要质量预测函数的必要性
  • 3.3 摘要质量预测函数的形式和及其可行性分析
  • 3.4 对质量特征的要求
  • 3.5 本章小结
  • 第四章 基于排序学习的多文档摘要技术
  • 4.1 排序学习技术与RankBoost方法
  • 4.2 排序特征选取
  • 4.2.1 基于信息覆盖率的排序特征
  • 4.2.2 基于内容相似度的排序特征
  • 4.3 训练数据集的构造
  • 4.4 搜索算法设计
  • 4.5 实验与结果分析
  • 4.5.1 各种排序特征的鲁棒性比较
  • 4.5.2 RBSS效果评估
  • 4.6 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].摘要的写作要求[J]. 青岛大学学报(工程技术版) 2019(04)
    • [2].摘要[J]. 糖尿病新世界 2019(22)
    • [3].摘要[J]. 创新创业理论研究与实践 2019(22)
    • [4].论文摘要的意义[J]. 中国现代医药杂志 2020(01)
    • [5].关于摘要的写作要求[J]. 长治医学院学报 2019(06)
    • [6].如何撰写中英文结构式摘要[J]. 河南预防医学杂志 2020(01)
    • [7].摘要的写作要求[J]. 青岛大学学报(工程技术版) 2020(01)
    • [8].投稿“摘要”要求[J]. 中国公共卫生管理 2020(01)
    • [9].如何写好文章摘要[J]. 煤矿机电 2020(01)
    • [10].如何写好论文摘要[J]. 机械研究与应用 2020(01)
    • [11].摘要的具体要求[J]. 中国中西医结合外科杂志 2020(01)
    • [12].如何撰写中英文结构式摘要[J]. 河南预防医学杂志 2020(04)
    • [13].怎样写好畜牧期刊的论文摘要[J]. 养猪 2020(02)
    • [14].论文摘要的意义[J]. 中国现代医药杂志 2020(03)
    • [15].摘要[J]. 中外医疗 2020(04)
    • [16].摘要[J]. 创新创业理论研究与实践 2020(05)
    • [17].如何写好论文摘要[J]. 微型电脑应用 2020(04)
    • [18].摘要[J]. 中外医疗 2020(10)
    • [19].论文摘要的写作要求[J]. 机械工程材料 2020(06)
    • [20].摘要的具体要求[J]. 中国中西医结合外科杂志 2020(03)
    • [21].投稿“摘要”要求[J]. 中国公共卫生管理 2020(03)
    • [22].如何写好文章摘要[J]. 中国循证心血管医学杂志 2020(04)
    • [23].如何写好论文摘要[J]. 机械研究与应用 2020(03)
    • [24].科技论文编写的具体要求——摘要[J]. 工程机械文摘 2020(04)
    • [25].论文摘要的意义[J]. 中国现代医药杂志 2020(07)
    • [26].如何写好文章摘要[J]. 煤矿机电 2020(04)
    • [27].摘要的写作要求[J]. 青岛大学学报(工程技术版) 2020(03)
    • [28].摘要[J]. 系统医学 2020(12)
    • [29].投稿“摘要”要求[J]. 中国公共卫生管理 2020(04)
    • [30].摘要[J]. 中外医疗 2020(18)

    标签:;  ;  ;  

    摘录式多文档摘要技术的研究
    下载Doc文档

    猜你喜欢