论文摘要
随着网络时代的到来,电子文本形式的信息大量涌现,使得互联网成为一个巨大的信息源。各类海量的文本信息在给人们带来便利的同时,也为信息产业带来了新的挑战。如何从信息海洋中迅速准确地获得用户感兴趣的信息,并以适当的形式呈现给用户,成为文本智能处理领域的研究热点。传统文本处理技术以篇章作为基本处理单元,隐性假设一篇文章只讨论一个主题。然而,篇幅较长的文章往往涉及多个不同的子主题,造成基于整篇文档的处理颗粒度难以满足用户的更高和更准确的要求。文本分割的研究就是在这样的背景下产生的。通过文本分割技术,能够自动识别出文本内部不同子主题的边界,将其线性分割开来。将语义段落(同一子主题的文本片段)作为基本处理单元,有益于改善文本处理技术的性能。文本分割需要解决两个关键问题:一是子主题边界的自动识别;二是语义段落数目的自动确定。本论文针对以上问题进行了研究,指出现有分割算法中存在的问题,并在深入分析文本结构特点的基础上,提出新的分割模型,取得一定的效果。最后,作者将所提出的文本分割模型应用于问题相关的多文档摘要任务中,实验结果表明子主题信息可以为摘要提供一些有价值的线索和范围,从而改善摘要的质量。本文的主要研究工作包括:1、提出了基于区域词汇密度的文本分割模型-MMD模型。本文对文本分割领域的著名算法-Dotplotting算法进行了理论分析,并指出Dotplotting用于评价分割点的区域密度函数存在两个问题:第一,评价函数不对称,导致前向扫描文本与后向扫描文本的分割结果不同的明显错误;第二,在确定新的语义段落边界时,评价函数未能充分考虑先前识别出的语义段落边界的制约。在此基础上,本文提出了MMD文本分割模型,弥补了Dotplotting模型存在的问题和不足。本文还利用语义段落长度因子来进一步提高分割性能。2、提出了一个基于多元判别分析的文本分割统计模型-MDA模型。采用多元判别分析方法定义了四种全局评价函数,实现对文本分割方式的全局评价。评价函数主要考虑了分割单元内距离、分割单元间距离和分割单元长度三个因素。其中假设分割单元内距离越小(强凝聚性)、分割单元间距离越大(强发散性)的分割方式是全局最佳的。最后根据全局分割评价结果,选择具有最高评价值的分割方式作为正确分割,从而自动判定子主题边界和确定语义段落的最佳数目。3、提出了基于动态规划的文本分割模型-MMS模型。在深入分析文本词汇分布特点和文本结构特点的基础上,定义了分割评价函数,通过动态规划算法搜索分割评价函数的全局最优解,同时自动确定最佳语义段落数目。评价函数综合考虑同一语义段落内部相似度、相邻语义段落之间相似度、语义段落长度和句子距离对相似度的影响等各种因素,来识别文档的子主题变化情况。与MDA模型相比,MMS模型的计算复杂度大大降低。MDA通过全搜索来确定最佳分割方式,是一个无序模型,计算复杂度为指数级别。而MMS模型采用动态规划方法作为搜索策略,属于有序模型。4、在本文提出的文本分割模型的基础上,面向问题相关的多文档摘要任务,构建了基于文本分割的多文档摘要系统-SEGSUM系统。本文先用文本分割模型对每篇文档进行主题分割,然后对分割出的语义段落进行聚类,从而将不同文档之间讨论相同子主题的片段聚集在一起,得到同一主题下的多个语义段落簇,其中每个簇代表一个子主题。接着过滤掉与问题不相关的子主题,并按照子主题的重要程度排序,依次从重要子主题中选取句子形成摘要。由于摘要覆盖了与问题相关的多个子主题,并评价了子主题的重要程度,因此摘要能在贴合问题的特定关注点的基础上,覆盖更多的信息。同时也使得摘要尽量包含重要的信息。