Web结构挖掘中HITS算法的研究

Web结构挖掘中HITS算法的研究

论文摘要

自20世纪90年代以来,随着网络技术的发展,尤其是Internet的广泛应用,WWW已经成为一个巨大的,分布广泛的全球信息服务中心。如何有效的满足用户的需求,帮助用户从因特网浩如烟海的信息中发现他们所要寻找或者感兴趣的资源,已经成为一项迫切需要解决的问题。Web数据挖掘在这个背景下应运而生。Web的存在形式表明Web之间的链接包含了大量人类的潜在语意,包括Web内容的相关性,质量和结构方面的信息,它反映了页面的重要性和权威性。因此可以利用这样的链接结构来找到权威页面。HITS(Hyperlink-Induced Topic Search)算法正是利用链接结构来对Web数据进行挖掘。本文主要是关于HITS算法的研究。在所有对页面进行链接分析并提取分组的算法中,HITS算法是应用最为广泛的一种事后分析算法,目前在不少的Web结构挖掘系统中都有相关的应用。文章首先介绍了Web数据挖掘的相关知识,并重点讨论了Web结构挖掘的理论,分析了HITS算法,对其优点和不足进行了深入研究。然后分析了HITS算法的一个变种:空间向量投影法。空间向量投影法的主要理论基础是充分信任根集的权威性。与HITS算法只计算主特征向量不同,空间向量投影法计算每个特征向量,然后将所有的特征向量对根集空间投影,并对投影后的向量进行比较。在前两种算法的基础上,提出了一种改进的Web结构挖掘算法——VSM空间投影HITS算法。通过利用提取文本内容的VSM方法,将Web文本内容与Web链接关系有机结合,寻找出一个更合理更值得信赖的空间向量,并将基集向量对此空间投影,以此来修正算法。最后,针对上面的三种算法,进行了一系列实验。实验表明,改进后的VSM空间投影HITS算法和原始HITS算法与空间向量投影HITS算法相比,能更有效的抑制主题漂移现象。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景
  • 1.2 课题研究现状
  • 1.3 论文的研究内容
  • 1.4 论文章节安排
  • 第2章 Web挖掘概述
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘概念
  • 2.1.2 数据挖掘各个阶段
  • 2.2 Web数据挖掘
  • 2.2.1 Web挖掘的概念
  • 2.2.2 Web内容挖掘
  • 2.2.3 Web结构挖掘
  • 2.2.4 Web使用挖掘
  • 2.3 本章小结
  • 第3章 HITS算法分析
  • 3.1 HITS算法的提出
  • 3.2 HITS算法的基本原理
  • 3.2.1 HITS算法的理论基础
  • 3.2.2 HITS算法的基本操作
  • 3.2.3 HITS算法的缺点
  • 3.3 HITS算法的实现重点
  • 3.3.1 根集的选取
  • 3.3.2 基集的构造
  • 3.3.3 构造相应的邻接图
  • 3.3.4 迭代计算权值
  • 3.4 空间向量投影HITS算法
  • 3.4.1 提高HITS效率的两个途径
  • 3.4.2 空间向量投影算法的思路
  • 3.4.3 空间向量投影算法具体步骤
  • 3.4.4 空间投影法存在的问题
  • 3.5 本章小结
  • 第4章 VSM空间投影HITS算法
  • 4.1 VSM思想的引入
  • 4.1.1 VSM原理
  • 4.1.2 VSM中相关概念
  • 4.1.3 HITS中VSM权值计算
  • 4.2 算法的预处理
  • 4.2.1 精简基集
  • 4.2.2 构造索引词列表
  • 4.2.3 文档和查询的向量表示
  • 4.3 算法的核心步骤
  • 4.3.1 文档向量与查询向量的相似度计算
  • 4.3.2 构造VSM空间
  • 4.3.3 对VSM空间进行投影
  • 4.4 VSM空间投影HITS算法流程
  • 4.5 本章小结
  • 第5章 实验分析
  • 5.1 评价方法
  • 5.1.1 主题相关性
  • 5.1.2 回调率和查准率
  • 5.2 实验设计
  • 5.2.1 实验过程
  • 5.2.2 实验的详细步骤及结果
  • 5.3 实验结果分析
  • 5.3.1 原始HITS算法实验结果分析
  • 5.3.2 空间向量投影HITS算法实验结果分析
  • 5.3.3 VSM空间投影HITS算法实验结果分析
  • 5.4 结果综合比较
  • 5.4.1 三种算法回调率的比较
  • 5.4.2 三种算法查准率的比较
  • 5.4.3 三种算法主题相关性的比较
  • 5.5 本章小结
  • 结论
  • 全文总结
  • 今后的工作与展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间所发表的论文
  • 相关论文文献

    • [1].网络结构挖掘算法研究[J]. 计算机技术与发展 2009(05)
    • [2].基于Web结构挖掘中HITS算法的研究[J]. 中学教学参考 2018(15)
    • [3].面向微博签到数据的城市社区结构挖掘[J]. 地理信息世界 2019(04)
    • [4].云计算在Web结构挖掘算法中的运用研究[J]. 信息与电脑(理论版) 2010(20)
    • [5].Web结构挖掘算法研究[J]. 计算机与信息技术 2009(04)
    • [6].探究基于云计算的Web结构挖掘算法[J]. 电脑知识与技术 2015(06)
    • [7].Web结构挖掘算法模拟器设计[J]. 信息与电脑(理论版) 2014(24)
    • [8].学术网络空间的主题发现与信息组织研究的力作——评《学术Web主题结构挖掘研究》[J]. 情报探索 2020(06)
    • [9].基于最小社团链接度增量的社团结构挖掘算法[J]. 北京科技大学学报 2009(01)
    • [10].基于粗糙集的Web结构挖掘[J]. 计算机技术与发展 2008(03)
    • [11].视频结构挖掘方法改进模拟仿真培训系统[J]. 现代电子技术 2010(16)
    • [12].Web数据结构挖掘分析与研究[J]. 科技信息 2009(31)
    • [13].基于结构挖掘和使用挖掘的Web挖掘算法研究[J]. 武夷学院学报 2008(05)
    • [14].基于模拟退火的三维模型典型结构挖掘与相似性评价[J]. 农业机械学报 2018(03)
    • [15].一种基于云计算的Web结构挖掘算法[J]. 电脑知识与技术 2011(24)
    • [16].浅析Web挖掘技术[J]. 科技信息 2009(18)
    • [17].基于Web结构挖掘算法的网站构建[J]. 电脑知识与技术 2008(34)
    • [18].基于Web结构挖掘的HITS算法分析及改进[J]. 湖南农机 2011(01)
    • [19].社交网络中的社团结构挖掘[J]. 中文信息学报 2014(01)
    • [20].Web结构挖掘中HITS算法改进的研究[J]. 微计算机信息 2010(03)
    • [21].Web结构挖掘在搜索引擎中的应用[J]. 软件导刊 2008(12)
    • [22].云计算在Web结构挖掘算法中的运用研究[J]. 计算机时代 2012(10)
    • [23].浅谈万维网上的数据挖掘[J]. 现代营销(学苑版) 2011(11)
    • [24].网络化指挥控制的社团结构挖掘方法[J]. 计算机工程 2010(03)
    • [25].基于云计算的Pagerank算法的改进[J]. 福州大学学报(自然科学版) 2014(01)
    • [26].应用Web结构挖掘的PageRank算法的改进研究[J]. 计算机工程与应用 2010(09)
    • [27].基于Web结构挖掘的HITS算法研究[J]. 电脑知识与技术 2008(20)
    • [28].网络挖掘研究综述[J]. 电脑知识与技术 2011(32)
    • [29].链接分析研究综述[J]. 大学图书馆学报 2008(02)
    • [30].Web挖掘在网络教育中的应用研究[J]. 大学图书情报学刊 2008(03)

    标签:;  ;  ;  

    Web结构挖掘中HITS算法的研究
    下载Doc文档

    猜你喜欢