新闻文档的自动文本摘要技术研究

新闻文档的自动文本摘要技术研究

论文摘要

自动文本摘要是利用计算机自动编写和生成摘要。自动文本摘要技术是解决目前信息过载问题的一种辅助手段,能够帮助人类理解概括自然语言文本,并更加快速、准确、全面地获取重要信息,在军事和民用方面都具有极其重要的实用意义。本文对新闻文档的自动文本摘要技术进行了大量地跟踪和深入地研究,主要取得了如下三个研究成果:首先,针对传统统计方法在提取文摘句上的局限性,提出了一种基于模糊决策理论的单文档自动文摘方法。它将判定语句是否重要看作一种决策过程,利用决策合成公式结合各文本信息特征,并根据文本的类型对不同文本信息特征进行加权。将语句按权值排序,抽取出最能反映文章主旨的语句作为文摘句。实验结果表明,新方法不局限于文本信息特征的数量和形式,并适用于不同类型的文本,较传统统计方法提取的文摘句更能准确反映文章主旨。其次,针对多个主题单篇文档的文摘实现,提出了一种基于聚类算法的单文档自动文摘方法。它利用聚类算法实现多个主题的划分,并从每个主题中抽出最具主题代表的语句作为文摘句。新方法针对K-means算法需要事先给定聚类类别数和初始参照点的不足,设计了一种基于自相似度的最小-最大聚类原则(MMS,Max-Min Self-similarity),来自动获取聚类数和参照点;并将MMS与多质心多循环样本策略中心分割(MCMRSPAM,Multi-Centroid,Multi-Run Sampling SchemePartitioning around Medoids)聚类算法相结合,克服了K-means算法以质心为参照点带来的主题句提取不准确的问题。实验结果表明,与其他聚类算法相比,新方法能够有效地解决主题遗漏问题,更好地反映文章主旨,提取的文摘既覆盖全面又突出重点。最后,针对网络上存在大量同主题的多篇文档和新文档带来新增主题的实际情况,提出了一种基于语义空间聚类和主题匹配的多文档自动文摘方法。它利用语义空间模型获得词汇间的语义相似度,通过聚类对主题划分;采用主题匹配方法抽取各主题的代表句作为文摘句,并快速发现新增文档的新增主题,及时更新多文档文摘的内容。实验结果表明,生成的多文档文摘不仅能够准确地突出主要信息,并能覆盖其他子主题,动态发现新增信息,使用户全面了解事件的发展过程及变化。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题来源
  • 1.2 自动文摘技术综述
  • 1.2.1 自动文本摘要技术的发展现状
  • 1.2.2 文摘的概念和分类
  • 1.2.3 自动文摘的处理过程
  • 1.2.4 自动文本摘要技术的主要方法
  • 1.2.5 自动文摘的关键技术
  • 1.3 自动文摘评测技术综述
  • 1.3.1 内部评测技术
  • 1.3.2 外部评测技术
  • 1.3.3 评测技术发展现状
  • 1.4 论文的主要内容
  • 第二章 文本信息特征的获取
  • 2.1 新闻文档特点分析
  • 2.1.1 新闻的结构特点
  • 2.1.2 新闻的内容特点
  • 2.2 文本信息特征
  • 2.3 文本信息特征的获取
  • 2.3.1 词特征的获取及其权值计算
  • 2.3.2 语句、段落的获取
  • 2.3.3 标题的获取
  • 2.4 文本单元的向量表示
  • 2.5 实验结果分析
  • 2.6 本章小结
  • 第三章 基于统计方法的单文档自动文摘
  • 3.1 基于统计方法的单文档自动文摘方法
  • 3.1.1 传统统计方法实现文摘的基本原理
  • 3.1.2 基于模糊决策理论的单文档自动文摘方法
  • 3.2 实验结果分析
  • 3.2.1 本章方法和传统统计方法的内部评测实验
  • 3.2.2 本章方法和传统统计方法的外部评测实验
  • 3.2.3 本章方法实现的自动文摘系统与实用系统的性能比较实验
  • 3.3 本章小结
  • 第四章 基于聚类算法的单文档自动文摘
  • 4.1 聚类算法基本原理
  • 4.1.1 K-means聚类算法
  • 4.1.2 K-medoids聚类算法
  • 4.1.3 MCMRS PAM聚类算法
  • 4.2 基于聚类算法的单文档自动文摘方法
  • 4.2.1 最小-最大聚类原则
  • MCMRSPAM的聚类算法'>4.2.2 基于MMSMCMRSPAM的聚类算法
  • 4.2.3 摘要的生成
  • 4.3 实验结果分析
  • 4.3.1 文档结构统计
  • 4.3.2 聚类算法有效性内部评测实验
  • 4.3.3 聚类算法有效性外部评测实验
  • 4.4 本章小结
  • 第五章 新闻文档的多文档自动文摘
  • 5.1 多文档文本摘要技术概述
  • 5.1.1 多文档文本摘要技术与单文档文本摘要技术的区别
  • 5.1.2 主要方法
  • 5.2 基于语义空间聚类和主题匹配的多文档自动文摘方法
  • 5.2.1 多文档文本摘要流程
  • 5.2.2 利用语义空间计算词汇相似度
  • 5.2.3 聚类算法
  • 5.2.4 基于主题匹配的主题句抽取方法
  • 5.2.5 文摘内容输出
  • 5.3 实验结果分析
  • 5.4 本章小结
  • 结束语
  • 参考文献
  • 附录A: 自动文摘评测技术发展现状
  • 附录B: 外部评测实验平台
  • 附录C: 本文算法实验平台
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    新闻文档的自动文本摘要技术研究
    下载Doc文档

    猜你喜欢