论文摘要
随着Intenlet/Interanet相关技术的发展,网上信息量迅速膨胀,但同时,网络信息的质量良莠不齐。为了更有效利用网络信息资源,如何对网络信息资源的质量进行评价越来越成为一个迫切的课题。目前,许多国内外学者,给出了网络信息资源评价对象、评价指标及评价方法等;同时,对网络资源的评价也取得一定的发展,其中基于链接关系的网页质量评价取得了显著的效果,并产生了经典的方法,如PageRank,HITs等。然而并没有针对论坛这种用户占主导性的网页的质量评价,本文提出了基于统计的网页质量评价,采用统计机器学习的方法实现对论坛网页的质量评价。本文采用机器学习的方法,针对特定领域的论坛,进行网页质量评价,主要从论坛网页的浏览数、回复数、正文长度、正文包含关键词的个数等方面来衡量一篇网页的质量。本文首先研究论坛网页的抓取功能,包括列表网页的识别和列表网页的内容抽取,列表网页的识别从网页结构和网页内容两方面着手,而对列表网页的内容抽取则采用基于相似度的方法;其次,采用基于统计的方法实现网页正文的抽取工作;再次,采用编码范围和n-gram语言模型相结合的方法实现对未指明编码方式的网页的编码识别;最后,利用最大熵模型,提取网页的内容特征,实现模型的训练和对网页质量的判断,在模型的训练过程中,主要解决了特征词的提取和非平衡数据集的训练两个问题,其中提出用投票法来实现特征词的提取,而采用经典的over-sampling方法解决非平衡数据集问题。本文的研究有利于实现论坛网页的信息过滤,使网民能够更有效地利用网络信息资源。当将其应用于特定产品时,能够只返回对产品质量反馈的帖子,使厂商能够有效,高效地了解用户反馈。