基于Web结构挖掘的HITS算法研究

基于Web结构挖掘的HITS算法研究

论文摘要

Web是一个巨大的信息资源库,提供了各种各样的信息服务,随着网络的普及和网络信息的迅速膨胀,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HITS算法是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。Web结构挖掘是Web数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析Web超链接数据来确定权威的信息源。在各种对网页进行链接分析并提取分组的算法中,HITS(Hyper-text-Induced-Topic Search)算法是应用的最为广泛的。本文对HITS算法进行了重点研究,对传统HITS算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对HITS算法加以改进,接着在根集向量投影法的基础上,提出了根集向量加权投影法和基本集向量加权投影法,以更好的实现权威网页搜索。对改进后的HITS算法与传统HITS算法进行了实验比较,发现根集向量投影法可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究内容及组织
  • 第二章 Web数据挖掘的基本理论
  • 2.1 Web数据挖掘的产生与发展
  • 2.2 Web数据挖掘概述
  • 2.3 Web结构挖掘概述
  • 第三章 WEB结构挖掘的相关算法理论
  • 3.1 文档超链结构
  • 3.2 PageRank算法
  • 3.3 HITS算法
  • 3.4 PageRank算法与HITS算法的比较分析
  • 3.5 Web结构挖掘算法的主要应用
  • 第四章 关于HITS算法的研究
  • 4.1 HITS算法简述
  • 4.1.1 HITS算法的基本思想
  • 4.1.2 HITS算法的伪代码描述及流程图
  • 4.2 HITS算法存在的一些主要问题
  • 4.3 现有的几种改进的HITS算法
  • 4.4 对HITS算法的研究改进
  • 4.4.1 利用根集向量投影法对HITS算法进行改进
  • 4.4.2 利用基本集缩减法对HITS算法进行改进
  • 4.4.3 将根集向量投影法与基本集缩减法相结合
  • 4.4.4 利用根集向量加权投影法对HITS算法进行改进
  • 4.4.5 基于用户满意度的基本集向量投影法对HITS算法的改进
  • 4.4.6 小结
  • 第五章 实验及性能分析
  • 5.1 传统HITS算法实验结果及其分析
  • 5.2 根集向量法的实验结果及其分析
  • 5.3 基本集缩减法的实验结果及其分析
  • 5.4 根集向量投影法与基本集缩减法的结合算法的实验结果及其分析
  • 5.5 根集向量加权投影法的实验结果及其分析
  • 5.6 基于用户满意度的基本集向量投影法的实验结果及其分析
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 进一步的工作
  • 致谢
  • 参考文献
  • 攻读学位期间主要的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于Web结构挖掘的HITS算法研究
    下载Doc文档

    猜你喜欢