基于PageRank算法的搜索引擎优化研究

基于PageRank算法的搜索引擎优化研究

论文摘要

近年来,随着Internet的不断发展,Web已经成为人们的重要信息来源,为人们提供了丰富的信息资源。与此同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给Web资源的发掘造成了相当的难度。因此,将数据挖掘技术和Web结合起来,进行Web数据挖掘也就随之成为了解决Web挖掘问题的重要途径。本文通过对经典的Web结构挖掘算法PageRank的研究学习,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。针对PageRank算法中完全只考虑web页面之间的超链接分析而忽略web页面的内容,从而导致分析结果出现主题漂移和种种的不足,提出了一种结合超链接分析和内容相关性分析的关于PageRank的改进算法,该算法通过对不同web页面进行内容分析并赋予链接之间不同的权重来实现对PageRank的改进,并最终通过实验证明该新算法的有效性。最后我们还针对PageRank算法中在对页面节点进行排序时存在将页面权威性与枢纽性完全分开或忽视了页面的枢纽性,造成信息的丢失等问题,通过重新设定PageRank算法中的个性化矢量因子E.探讨建立在此基础上的PageRank算法,并通过实验验证了该算法对该问题的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究的现状和主要内容
  • 1.3 本文主要工作
  • 1.4 论文的组织
  • 第二章 GOOGLE 搜索引擎研究
  • 2.1 GOOGLE 简要介绍
  • 2.1.1 Google 的成长历程
  • 2.1.2 Google 的软件文化理念
  • 2.2 GOOGLE的系统结构和运行过程
  • 2.2.1 Google 的系统结构
  • 2.2.2 搜索引擎的运行过程
  • 2.2.3 PageRank 算法
  • 2.3 本章小结
  • 第三章 基于PAGERANK 算法的网站优化策略
  • 3.1 网站优化概述
  • 3.1.1 网站优化的定义
  • 3.1.2 面向搜索引擎的网站设计
  • 3.2 基于PAGERANK 算法的优化策略
  • 3.2.1 随机冲浪模型
  • 3.2.2 链接结构对PageRank 值的影响
  • 3.3 PAGERANK 算法效率研究
  • 3.4 本章小结
  • 第四章 WEB 结构挖掘的PAGERANK 算法的改进
  • 4.1 WEB 结构挖掘算法
  • 4.1.1 概述
  • 4.1.2 HITS 算法
  • 4.1.2.1 子图的建立
  • 4.1.2.2 计算找出Authorities 和Hubs
  • 4.2 基于相似度分析的S-PAGERANK 算法
  • 4.2.1 主题漂移现象
  • 4.2.2 网页相似度分析
  • 4.2.3 几种度模型分析
  • 4.2.4 S-PageRank 算法
  • 4.2.4.1 S-PageRank 算法描述
  • 4.2.4.2 S-PageRank 算法收敛性说明
  • 4.3 基于枢纽页面的H-PAGERANK 算法
  • 4.3.1 问题描述
  • 4.3.2 H-PageRank 算法描述
  • 4.4 本章小结
  • 第五章 实验系统设计与构建
  • 5.1 系统的设计
  • 5.2 系统的实现
  • 5.2.1 网络蜘蛛
  • 5.2.2 信息服务器
  • 5.2.3 URL 调度器
  • 5.2.4 网页分析器
  • 5.2.5 排序算法
  • 5.2.6 查询系统
  • 5.3 系统的总结
  • 5.4 小结
  • 第六章 PAGERANK 改进算法的仿真试验与实现
  • 6.1 S-PageRank 算法实验
  • 6.2 H-PageRank 算法实验
  • 6.4 小结
  • 第七章 总结与展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].网络结构对专利PageRank与专利价值关系的门槛效应研究[J]. 科学学与科学技术管理 2020(02)
    • [2].基于叙词表语义关系和PageRank的查询扩展方法[J]. 情报杂志 2016(12)
    • [3].基于社交网络的PageRank算法改进[J]. 图书情报导刊 2017(04)
    • [4].圆圈结构及其变化系统的PageRank排名研究[J]. 计算机工程与应用 2017(09)
    • [5].Ranking Modules for Integrate Testing Based on PageRank Algorithm[J]. Chinese Journal of Electronics 2017(05)
    • [6].基于改进PageRank算法的路网重要交叉口筛选方法[J]. 西南交通大学学报 2016(05)
    • [7].基于洛伦兹变换和PageRank算法的数据资产估值[J]. 计算机系统应用 2020(08)
    • [8].高阶PageRank问题的一个两步分裂迭代算法[J]. 应用数学与计算数学学报 2018(03)
    • [9].基于PageRank算法的出租车需求预测[J]. 微型电脑应用 2019(04)
    • [10].基于关系网络的PageRank算法在禁毒情报上的应用研究[J]. 中国人民公安大学学报(自然科学版) 2019(01)
    • [11].基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究 2018(04)
    • [12].PageRank算法改进研究[J]. 软件导刊 2017(02)
    • [13].面向微博的PageRank算法的改进与应用[J]. 计算机应用与软件 2017(03)
    • [14].基于PageRank算法的网络关键节点查找[J]. 电脑知识与技术 2017(04)
    • [15].基于PageRank算法的图书影响力评价[J]. 中华医学图书情报杂志 2015(12)
    • [16].An adaptive improvement on PageRank algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B) 2013(01)
    • [17].加权PageRank算法研究综述[J]. 软件导刊 2013(02)
    • [18].PageRank在图书推荐技术中的应用研究[J]. 科技通报 2013(04)
    • [19].一种基于PageRank算法和知网的词义消歧方法[J]. 计算机应用与软件 2011(05)
    • [20].个性化PageRank算法在图书馆智能搜索引擎中的实现[J]. 现代情报 2010(07)
    • [21].PageRank算法在孤立点检测中的应用[J]. 微型机与应用 2010(24)
    • [22].基于PageRank的期刊评价研究[J]. 中国科技期刊研究 2009(04)
    • [23].基于转移概率的PageRank算法研究[J]. 科学技术与工程 2008(08)
    • [24].基于改进PageRank算法的轨道交通产业集群分析[J]. 交通运输工程与信息学报 2020(02)
    • [25].基于PageRank的用户影响力评价改进算法[J]. 哈尔滨工业大学学报 2018(05)
    • [26].基于PageRank的微博用户影响力评估模型研究[J]. 信息技术 2018(05)
    • [27].基于分布式PageRank算法的可疑目标挖掘[J]. 高技术通讯 2017(05)
    • [28].基于万有引力定律和PageRank的页面分类系统构建方法研究[J]. 情报科学 2015(06)
    • [29].基于中心词耦合度和PageRank的文本自动摘录算法[J]. 中山大学研究生学刊(社会科学版) 2013(03)
    • [30].一种融合PageRank的协同过滤帖子推荐方法[J]. 中国科学技术大学学报 2014(07)

    标签:;  ;  ;  

    基于PageRank算法的搜索引擎优化研究
    下载Doc文档

    猜你喜欢