论文摘要
近年来,随着Internet的发展,以及网络带宽越来越大,使Internet能够给人们的生活带来很大的便利。比如电子商务的发展,使Internet网络成为了一种新的经济盈利模式。但是随着Internet网页容量的逐步增大,又使得人们难以有效的利用网络数据,虽然搜索引擎能够很方便的让人们查找有用的信息,但是目前搜索引擎基于关键字的搜索很难满足大多数的要求。如何让Internet网络中的数据能够得到聚合并且简化,这成为了目前许多自然语言处理领域研究者共同关注的一个话题。随着Web2.0的兴起,对自然语言处理的要求越来越高,而基于自然语言处理的Web2.0应用在Internet环境下取得了很大的成功,而基于标签分类的内容共享系统作为其中的一个典型应用,在系统中,用户通过标签来分类管理网页内容,系统可以通过标签来统计出用户的喜好,并可以看出目前流行的趋势。在此基础上搭建更好的应用。目前,人们使用自然语言处理对网页文本进行分类和自动文摘,这样极大的提高了人们使用网页资源的效率。对网页进行归类能够使人们有效的整理网页文档,提高对网页搜索并且利用的效率;对网页的自动文摘,可以过滤掉许多我们不需要的信息,只关注网页中最核心的部分,这样极大的提供了网页的利用率。本文尝试用一种新的基于Web2.0标签分类内容共享系统构建自动文摘模型。由于Web2.0标签分类内容共享系统中标签信息有利于自动文摘的生成,本文在构建自动文摘时充分利用这个特性,并对模型进行了必要的优化。本文首先通过对自动文摘目前的发展作出概述,并总结出网页文本数据的特点,结合这两点对目前存在的网页自动文摘方法进行剖析。在此基础上结合Web2.0中标签概念提出本文的对网页自动文摘的模型:首先根据文献[4]提出的模型对网页自动文摘建立初始模型-词频模型。这个模型主要使用经典的TF/IDF方法计算单词的权重,在计算IDF时,我们使用标签分类内容共享系统作为一个网页信息的主要来源,在计算单词权重的基础上对句子进行选择。最后选择权重最高的句子作为网页的摘要。在词频模型的基础上,我们对模型进行了扩展。网页中包含了许多有用的信息,比如网页标题,网页中的斜体,粗体,以及下划线的文字都是一些有用的线索。为此我们定义了一些网页数据的特征,然后利用训练数据对这些特征进行训练,利用朴素贝叶斯公式对每个句子进行评价。最后选择权重最高的句子作为网页的摘要。词频模型以及词频模型的优化都是从网页本身入手,选择出能够代表网页最重要信息的句子作为文摘。结合Web2.0的标签概念,我们利用标签这个外部信息来生成文摘。由于标签之间存在关联,在用标签生成文摘模型的基础上,对模型进行了改进,对那些统计意义上相关联的标签进行了统一评价,这样比较客观地对单词进行评价。接下来考虑到句子之间可能存在语义上的重复,我们利用余弦定理对句子进行了消重。利用经典的召回率(Recall)、准确率(Precision)、F1和ROUGE评价模型对文摘模型进行评价。首先在现有的标签分类内容共享系统上进行试验,说明标签可以很好的反映出网页的主要内容。然后分别在标签分类内容共享系统上和利用Open Directory Project上进行试验。实验可以看出,基于标签分类内容共享系统的文摘模型比单纯使用词频进行文摘生成的模型具有更好的效果。而改进后的词频模型与基于标签模型在效果上不相上下。这是由于标签具有不确定性,如果一个标签分类共享系统具有大量的标签数据,将会能够生成更好的文摘。