文本分割关键技术及其在多文档摘要中的应用研究

文本分割关键技术及其在多文档摘要中的应用研究

论文摘要

随着网络时代的到来,电子文本形式的信息大量涌现,使得互联网成为一个巨大的信息源。各类海量的文本信息在给人们带来便利的同时,也为信息产业带来了新的挑战。如何从信息海洋中迅速准确地获得用户感兴趣的信息,并以适当的形式呈现给用户,成为文本智能处理领域的研究热点。传统文本处理技术以篇章作为基本处理单元,隐性假设一篇文章只讨论一个主题。然而,篇幅较长的文章往往涉及多个不同的子主题,造成基于整篇文档的处理颗粒度难以满足用户的更高和更准确的要求。文本分割的研究就是在这样的背景下产生的。通过文本分割技术,能够自动识别出文本内部不同子主题的边界,将其线性分割开来。将语义段落(同一子主题的文本片段)作为基本处理单元,有益于改善文本处理技术的性能。文本分割需要解决两个关键问题:一是子主题边界的自动识别;二是语义段落数目的自动确定。本论文针对以上问题进行了研究,指出现有分割算法中存在的问题,并在深入分析文本结构特点的基础上,提出新的分割模型,取得一定的效果。最后,作者将所提出的文本分割模型应用于问题相关的多文档摘要任务中,实验结果表明子主题信息可以为摘要提供一些有价值的线索和范围,从而改善摘要的质量。本文的主要研究工作包括:1、提出了基于区域词汇密度的文本分割模型-MMD模型。本文对文本分割领域的著名算法-Dotplotting算法进行了理论分析,并指出Dotplotting用于评价分割点的区域密度函数存在两个问题:第一,评价函数不对称,导致前向扫描文本与后向扫描文本的分割结果不同的明显错误;第二,在确定新的语义段落边界时,评价函数未能充分考虑先前识别出的语义段落边界的制约。在此基础上,本文提出了MMD文本分割模型,弥补了Dotplotting模型存在的问题和不足。本文还利用语义段落长度因子来进一步提高分割性能。2、提出了一个基于多元判别分析的文本分割统计模型-MDA模型。采用多元判别分析方法定义了四种全局评价函数,实现对文本分割方式的全局评价。评价函数主要考虑了分割单元内距离、分割单元间距离和分割单元长度三个因素。其中假设分割单元内距离越小(强凝聚性)、分割单元间距离越大(强发散性)的分割方式是全局最佳的。最后根据全局分割评价结果,选择具有最高评价值的分割方式作为正确分割,从而自动判定子主题边界和确定语义段落的最佳数目。3、提出了基于动态规划的文本分割模型-MMS模型。在深入分析文本词汇分布特点和文本结构特点的基础上,定义了分割评价函数,通过动态规划算法搜索分割评价函数的全局最优解,同时自动确定最佳语义段落数目。评价函数综合考虑同一语义段落内部相似度、相邻语义段落之间相似度、语义段落长度和句子距离对相似度的影响等各种因素,来识别文档的子主题变化情况。与MDA模型相比,MMS模型的计算复杂度大大降低。MDA通过全搜索来确定最佳分割方式,是一个无序模型,计算复杂度为指数级别。而MMS模型采用动态规划方法作为搜索策略,属于有序模型。4、在本文提出的文本分割模型的基础上,面向问题相关的多文档摘要任务,构建了基于文本分割的多文档摘要系统-SEGSUM系统。本文先用文本分割模型对每篇文档进行主题分割,然后对分割出的语义段落进行聚类,从而将不同文档之间讨论相同子主题的片段聚集在一起,得到同一主题下的多个语义段落簇,其中每个簇代表一个子主题。接着过滤掉与问题不相关的子主题,并按照子主题的重要程度排序,依次从重要子主题中选取句子形成摘要。由于摘要覆盖了与问题相关的多个子主题,并评价了子主题的重要程度,因此摘要能在贴合问题的特定关注点的基础上,覆盖更多的信息。同时也使得摘要尽量包含重要的信息。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 文本分割概述
  • 1.1.1 文本分割的任务
  • 1.1.2 研究现状
  • 1.2 多文档摘要概述
  • 1.2.1 多文档摘要的任务
  • 1.2.2 研究现状
  • 1.2.3 DUC会议
  • 1.3 本文研究背景与意义
  • 1.4 本文研究工作
  • 1.5 本文内容安排
  • 第二章 文本相似度计算方法
  • 2.1 基于向量空间模型的方法
  • 2.1.1 二值向量相似性度量
  • 2.1.2 实值向量相似性度量
  • 2.2 基于序列比对的方法
  • 2.3 基于潜在语义分析的方法
  • 2.4 基于文本属性的方法
  • 2.5 小结
  • 第三章 基于区域词汇密度的文本分割模型
  • 3.1 Dotplotting模型
  • 3.2 Dotplotting模型的问题分析
  • 3.2.1 密度函数的对称性
  • 3.2.2 已有边界的制约
  • 3.3 MMD文本分割模型
  • 1模型'>3.3.1 MMD1模型
  • 2模型'>3.3.2 MMD2模型
  • 3.3.3 文本分割算法
  • 3.4 语义段落长度因子
  • 3.5 实验
  • 3.5.1 评价方法介绍
  • 3.5.2 评测语料介绍
  • 3.5.3 实验设置
  • 3.5.4 实验结果
  • 3.5.5 错误分析
  • 3.6 小结
  • 第四章 基于多元判别分析的文本分割模型
  • 4.1 多元判别分析
  • 4.2 MDA文本分割统计模型
  • 4.3 评价函数
  • 4.3.1 基本思想
  • W'>4.3.2 语义段落内散布矩阵SW
  • B'>4.3.3 语义段落间散布矩阵SB
  • L'>4.3.4 长度因子SL
  • 4.3.5 MDA评价函数J
  • 4.4 文本分割算法
  • 4.5 实验
  • 4.5.1 实验设置
  • 4.5.2 评价方法
  • 4.5.3 实验结果
  • 4.5.4 相关研究对比
  • 4.6 小结
  • 第五章 基于动态规划的文本分割模型
  • 5.1 动态规划
  • 5.1.1 动态规划的适用条件
  • 5.1.2 动态规划求解过程
  • 5.1.3 多维动态规划
  • 5.2 MMS文本分割模型
  • 5.2.1 问题定义
  • 5.2.2 基本思想
  • 5.2.3 评价函数
  • 5.2.4 文本结构加权因子
  • 5.2.5 文本分割算法
  • 5.3 实验
  • 5.3.1 实验设置
  • 5.3.2 评价方法
  • 5.3.3 实验结果
  • 5.4 小结
  • 第六章 基于文本分割的多文档摘要技术研究
  • 6.1 前言
  • 6.2 多文档摘要系统的一般框架
  • 6.3 问题相关的多文档摘要任务
  • 6.3.1 介绍
  • 6.3.2 关键问题和难点
  • 6.3.3 Baseline系统
  • SUM系统'>6.4 SEGSUM系统
  • 6.4.1 基本思想
  • 6.4.2 总体结构
  • 6.4.3 具体实现
  • 6.4.4 工作流程
  • 6.5 实验
  • 6.5.1 评价指标介绍
  • 6.5.2 评测语料介绍
  • 6.5.3 实验设置
  • 6.5.4 实验结果
  • 6.5.5 错误分析
  • 6.6 小结
  • 第七章 结论
  • 7.1 本文所作的研究工作
  • 7.2 未来的研究方向
  • 7.3 关于信息智能处理技术发展趋势的思考
  • 参考文献
  • 致谢
  • 攻读博士期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    文本分割关键技术及其在多文档摘要中的应用研究
    下载Doc文档

    猜你喜欢