基于文章主题分析的自动文摘研究

基于文章主题分析的自动文摘研究

论文摘要

自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利用自动文摘技术,人们可以减少查找可用信息的时间。基于统计的文章主题划分的阈值可以通过大量的实验观察确定,但这种方法确定的阈值缺乏一定的适应性,提出一种基于阈值自动确定的主题分析方法,并与经验确定阈值的方法进行对比,表明此方法是可行的,可以满足自动文摘的要求并弥补了经验确定阈值方法的不足。因自动文摘过程是从一组主题相关的文档中发现潜在的知识,文本聚类技术得到了广泛的重视。线性时间复杂度的K-means文本聚类算法的中心点难以确定,提出一种文本聚类中心点选择方法,试验结果表明此方法可以发现一组聚类文档的中心点,并提高了聚类效果。对于多文档自动文摘,可以对同一个主题的多个文档划分局部主题之后,从局部主题中提取信息形成文摘,提高文摘的覆盖度。提出一种基于单文档主题划分为基础的多文档文摘主题分析方法,并对四种方法进行了对比。分析形成的局部主题后,对各个局部主题依据一定的技术进行提取,形成多文档文摘,最后对基于单文档主题划分和基于句子聚类的多文档自动文摘进行了对比分析,并给出了对比结果。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 课题的背景与意义
  • 1.2 国内外研究现状
  • 1.3 课题研究目标及研究内容
  • 1.4 论文组织结构
  • 第二章 多文档自动文摘及相关技术介绍
  • 2.1 主题划分技术
  • 2.2 文本聚类技术
  • 2.2.1 文章单元聚类技术
  • 2.2.2 聚类文档的聚类技术
  • 2.2.3 常用的文本聚类算法
  • 2.3 多文档主题分析
  • 2.3.1 多文档主题形成分析
  • 2.3.2 主题分析对于自动文摘结果改善的讨论
  • 2.4 本章小结
  • 第三章 自动确定阈值的文章主题段落划分
  • 3.1 基于阈值自动发现的主题划分
  • 3.2 段落的主题相似度以及阈值自动发现
  • 3.2.1 段落的主题相似度
  • 3.2.2 相似度阈值的自动发现
  • 3.3 语义段落边界的发现
  • 3.4 试验设计与结果
  • 3.5 本章小结
  • 第四章 K-means 文档聚类中心点选择方法改进
  • 4.1 文本聚类研究分析
  • 4.2 基于子图划分的中心点选择
  • 4.3 聚类实现过程
  • 4.3.1 聚类前期处理工作
  • 4.3.2 算法处理
  • 4.3.3 算法时间复杂度分析
  • 4.4 实验结果
  • 4.4.1 数据集的选择和评价标准
  • 4.4.2 结果评价和分析
  • 4.5 本章小结
  • 第五章 多文档自动文摘的主题分析
  • 5.1 多文档的主题分析
  • 5.1.1 基于词频重要性的语义段落排序
  • 5.1.2 基于语义段落相关度的段落排序
  • 5.1.3 基于语义段落聚类的语义段落排序
  • 5.2 Manifold 跟聚类结合的主题形成方法
  • 5.2.1 算法思想介绍
  • 5.2.2 算法过程描述
  • 5.2.3 主题描述向量的建立
  • 5.2.4 语义段落抽取方法
  • 5.2.5 算法的实现
  • 5.3 评测方法及实验结果
  • 5.3.1 两种主题划分方法的划分结果
  • 5.3.2 压缩比一定时的文摘的评测结果
  • 5.3.3 压缩比不同时的试验结果
  • 5.3.4 主题划分方法对多文档文摘的影响
  • 5.4 本章小结
  • 第六章 文摘生成与评价
  • 6.1 文摘句子的抽取
  • 6.1.1 多文档自动文摘句子抽取
  • 6.1.2 多文档文摘句子的排序方式
  • 6.2 文摘句子的优化
  • 6.3 本文的实验结果
  • 6.3.1 基于句子聚类的多文档文摘
  • 6.3.2 基于主题分析的多自动文摘
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    • [1].我国政务大数据政策扩散特征与主题分析[J]. 图书情报工作 2020(13)
    • [2].基于主题分析模式下的图书馆众筹模式研究[J]. 内蒙古科技与经济 2020(19)
    • [3].《士兵的重负》之主题分析[J]. 海外英语 2020(09)
    • [4].基于主题网络的伪主题分析[J]. 中文信息学报 2018(12)
    • [5].如何用主题分析法解任务型阅读[J]. 新高考(高一版) 2009(05)
    • [6].基于文献计量的全球健康研究主题分析[J]. 内蒙古科技与经济 2020(01)
    • [7].2019科学计量学与信息计量学国际学术研讨会主题分析[J]. 数字图书馆论坛 2020(05)
    • [8].基于主题分析的用户评论聚类方法[J]. 计算机科学 2019(08)
    • [9].符号策略与对外传播:一个基于主题分析法的案例[J]. 对外传播 2017(06)
    • [10].体制与机制:高校内部权力制约与监督——基于39所高校巡视反馈文本的主题分析[J]. 复旦教育论坛 2018(01)
    • [11].跨业务主题分析的研究与应用[J]. 电力信息化 2010(07)
    • [12].高校师生数据的主题分析[J]. 电子技术与软件工程 2019(20)
    • [13].首都图书馆民国时期期刊主题分析报告——以首都图书馆中文期刊库为核心[J]. 内蒙古科技与经济 2018(01)
    • [14].生命主题分析在生涯咨询中的应用[J]. 贵州大学学报(社会科学版) 2011(03)
    • [15].《万物生》与《荒原》主题分析初探[J]. 南昌教育学院学报 2017(02)
    • [16].创伤理论视域下《灿烂千阳》的主题分析[J]. 大连大学学报 2017(01)
    • [17].陀思妥耶夫斯基《荒唐人的梦》的主题分析[J]. 广东第二师范学院学报 2020(02)
    • [18].浅析英文诗歌的赏析[J]. 现代交际 2010(10)
    • [19].单个病例数据Meta分析的研究主题分析[J]. 中国药物评价 2019(05)
    • [20].《黑猫》的异化主题分析[J]. 重庆第二师范学院学报 2017(01)
    • [21].A & HCI收录艺术类期刊的归类与主题分析[J]. 文化创新比较研究 2017(06)
    • [22].澳大利亚独特文化身份构建 戴维·威廉森《搬迁者》主题分析[J]. 中国戏剧 2020(02)
    • [23].近5年WoS中在线评论研究主题分析[J]. 产业与科技论坛 2020(07)
    • [24].细分领域LDA主题分析中选词方案的效果对比研究[J]. 情报理论与实践 2019(06)
    • [25].每天进步一点点[J]. 班主任 2011(11)
    • [26].组织研究前沿文献主题分析——Organization Studies期刊文献内容解析[J]. 管理观察 2018(33)
    • [27].库切之《慢人》中的三重主题分析[J]. 温州大学学报(社会科学版) 2017(01)
    • [28].《集中注意,我能行》教学设计[J]. 新课程学习(下) 2012(04)
    • [29].基于CSSCI的“大数据”高被引论文统计与主题分析[J]. 图书馆界 2019(02)
    • [30].基于知识图谱的教育大数据研究热点与主题分析[J]. 中国医学教育技术 2017(04)

    标签:;  ;  ;  ;  ;  

    基于文章主题分析的自动文摘研究
    下载Doc文档

    猜你喜欢