论文摘要
自动文本摘要是利用计算机自动编写和生成摘要。自动文本摘要技术是解决目前信息过载问题的一种辅助手段,能够帮助人类理解概括自然语言文本,并更加快速、准确、全面地获取重要信息,在军事和民用方面都具有极其重要的实用意义。本文对新闻文档的自动文本摘要技术进行了大量地跟踪和深入地研究,主要取得了如下三个研究成果:首先,针对传统统计方法在提取文摘句上的局限性,提出了一种基于模糊决策理论的单文档自动文摘方法。它将判定语句是否重要看作一种决策过程,利用决策合成公式结合各文本信息特征,并根据文本的类型对不同文本信息特征进行加权。将语句按权值排序,抽取出最能反映文章主旨的语句作为文摘句。实验结果表明,新方法不局限于文本信息特征的数量和形式,并适用于不同类型的文本,较传统统计方法提取的文摘句更能准确反映文章主旨。其次,针对多个主题单篇文档的文摘实现,提出了一种基于聚类算法的单文档自动文摘方法。它利用聚类算法实现多个主题的划分,并从每个主题中抽出最具主题代表的语句作为文摘句。新方法针对K-means算法需要事先给定聚类类别数和初始参照点的不足,设计了一种基于自相似度的最小-最大聚类原则(MMS,Max-Min Self-similarity),来自动获取聚类数和参照点;并将MMS与多质心多循环样本策略中心分割(MCMRSPAM,Multi-Centroid,Multi-Run Sampling SchemePartitioning around Medoids)聚类算法相结合,克服了K-means算法以质心为参照点带来的主题句提取不准确的问题。实验结果表明,与其他聚类算法相比,新方法能够有效地解决主题遗漏问题,更好地反映文章主旨,提取的文摘既覆盖全面又突出重点。最后,针对网络上存在大量同主题的多篇文档和新文档带来新增主题的实际情况,提出了一种基于语义空间聚类和主题匹配的多文档自动文摘方法。它利用语义空间模型获得词汇间的语义相似度,通过聚类对主题划分;采用主题匹配方法抽取各主题的代表句作为文摘句,并快速发现新增文档的新增主题,及时更新多文档文摘的内容。实验结果表明,生成的多文档文摘不仅能够准确地突出主要信息,并能覆盖其他子主题,动态发现新增信息,使用户全面了解事件的发展过程及变化。
论文目录
相关论文文献
标签:自动文本摘要论文; 模糊决策理论论文; 聚类算法论文; 主题句论文; 语义空间论文; 主题匹配论文; 新闻文档论文;