论文摘要
随着因特网的高速发展、信息爆炸时代的延展,人们对于信息的获取又有了新的需求。人们不再仅仅满足于由新闻媒体、信息门户等网络信息实体所展示的文章或多媒体信息,而是更加倾向于同网络中其他用户的信息交流、分享与互动。随着这种需求的不断增加,作为提供用户信息交流的WEB2.0信息实体的典型代表,Blog获得了广泛的关注与发展。由于Blog具有文章良莠不齐,评论噪声偏多的特点,如何结合Blog评论获取Blog文章的主要内容来给予读者一个简要的内容展示是许多基于Blog的应用所要面临的难题,而对面向Blog的自动文本摘要技术的研究为解决这个难题提供了一种思路。目前对于自动文本摘要技术的研究大多关注的是对单个文档或是属于同一主题下的多个文档的文本摘要技术,而对于特定交互式网络实体的相关文本摘要技术的研究较少。目前比较成熟的通用自动文本摘要技术大多对Blog文章的内容以及结构特点的理解与分析存在着偏差,生成的文本摘要的质量也不高。而在面向特定应用的自动文本摘要技术中Blog文章的处理方法也相对较少,而且效果相对较差。本文通过分析Blog的组成元素以及各元素之间的联系与特点,对面向Blog文章的自动文本摘要方法进行了研究,并提出了相对应的文本摘要方法,最后通过实验证明了该方法的有效性。本文的研究内容主要包括如下几个方面:1.提出了一些可以用于量化Blog相关元素重要性的特征。本文通过分析Blog各个组成元素的特点,提出了Blog统计特征、内容复杂度及观点独特性等可以量化相关元素重要性的特征。相关实验证明本文提出的几种量化特征能够有效的提高Blog文本摘要的质量2.提出了一种Blog评论排名以及噪声过滤的方法。在根据正文与评论的相关特征,通过相应的回归特征量化方法得出Blog评论重要度的基础上,设定噪声过滤阈值。通过相关实验证明这种重要度量化方法以及相应的噪声过滤方法能够有效的得到Blog评论的重要度并在过滤噪声时具有较高的查全率和查准率。3.提出了一种基于HITS图算法的正文句子排名方法。本方法中将正文句子和评论抽象为图节点,通过分析评论与正文的关系得出相应的链接图,最后根据HITS算法得出正文句子的排名情况。4.基于对以上几点问题的研究,本文提出了一种面向Blog文章的自动文本摘要方法。该方法具体工作流程包括Blog评论权重计算、评论噪声过滤、正文句子权重计算、摘要生成等步骤。通过在凤凰博报数据集上的实验证明,本方法茌ROUGE值上优于以往方法。