基于统计的网页质量评价技术研究与实现

基于统计的网页质量评价技术研究与实现

论文摘要

随着Intenlet/Interanet相关技术的发展,网上信息量迅速膨胀,但同时,网络信息的质量良莠不齐。为了更有效利用网络信息资源,如何对网络信息资源的质量进行评价越来越成为一个迫切的课题。目前,许多国内外学者,给出了网络信息资源评价对象、评价指标及评价方法等;同时,对网络资源的评价也取得一定的发展,其中基于链接关系的网页质量评价取得了显著的效果,并产生了经典的方法,如PageRank,HITs等。然而并没有针对论坛这种用户占主导性的网页的质量评价,本文提出了基于统计的网页质量评价,采用统计机器学习的方法实现对论坛网页的质量评价。本文采用机器学习的方法,针对特定领域的论坛,进行网页质量评价,主要从论坛网页的浏览数、回复数、正文长度、正文包含关键词的个数等方面来衡量一篇网页的质量。本文首先研究论坛网页的抓取功能,包括列表网页的识别和列表网页的内容抽取,列表网页的识别从网页结构和网页内容两方面着手,而对列表网页的内容抽取则采用基于相似度的方法;其次,采用基于统计的方法实现网页正文的抽取工作;再次,采用编码范围和n-gram语言模型相结合的方法实现对未指明编码方式的网页的编码识别;最后,利用最大熵模型,提取网页的内容特征,实现模型的训练和对网页质量的判断,在模型的训练过程中,主要解决了特征词的提取和非平衡数据集的训练两个问题,其中提出用投票法来实现特征词的提取,而采用经典的over-sampling方法解决非平衡数据集问题。本文的研究有利于实现论坛网页的信息过滤,使网民能够更有效地利用网络信息资源。当将其应用于特定产品时,能够只返回对产品质量反馈的帖子,使厂商能够有效,高效地了解用户反馈。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景及意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 本课题国内外相关研究
  • 1.2.1 网络信息资源评价研究综述
  • 1.2.2 基于链接分析的网页质量评价
  • 1.3 基于统计的网页质量评价概述
  • 1.4 本文主要研究内容与组织
  • 第2章 论坛网页的抓取及正文抽取
  • 2.1 论坛网页抓取
  • 2.1.1 论坛站点收集
  • 2.1.2 列表网页识别流程
  • 2.1.3 列表网页识别
  • 2.1.4 列表网页内容抽取
  • 2.2 网页正文抽取
  • 2.2.1 论坛网页正文抽取方法描述
  • 2.2.2 实验结果及分析
  • 2.3 网页编码识别
  • 2.3.1 编码简介
  • 2.3.2 N-gram语言模型简介
  • 2.3.3 编码识别
  • 2.3.4 测试结果
  • 2.3.5 实验结果分析
  • 2.4 本章小结
  • 第3章 基于统计的网页质量评价
  • 3.1 试验结果的评价指标
  • 3.2 特征词的选择
  • 3.2.1 常用的特征选择方法
  • 3.2.2 投票法的提出
  • 3.2.3 特征词选择方法的比较
  • 3.2.4 试验结果分析
  • 3.3 最大熵模型简介
  • 3.3.1 条件最大熵模型
  • 3.3.2 最大熵原则的数学表示
  • 3.3.3 最大熵模型的特征选择
  • 3.3.4 最大熵模型的优缺点
  • 3.4 网页质量评价相关问题研究
  • 3.4.1 非平衡训练集
  • 3.4.2 特征选取
  • 3.5 本章小结
  • 第4章 系统设计实现与评测
  • 4.1 系统总体模块设计
  • 4.2 系统主要模块简介
  • 4.3 系统性能测试
  • 4.4 试验结果分析
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于统计的网页质量评价技术研究与实现
    下载Doc文档

    猜你喜欢