搜索引擎PageRank算法研究

搜索引擎PageRank算法研究

论文摘要

互联网的迅速发展,使得现有的搜索引擎面临着巨大的挑战,面对众多杂乱无章的信息,搜索引擎如何能够快速准确检索到用户需要的信息,在搜索引擎中就显得十分重要。因此,搜索引擎排序算法也就成为众多搜索引擎关注的关键问题之一。在现有搜索引擎排名算法中,基于网页链接结构的经典算法就是经常提到的PageRank算法和Hits算法,这些算法也是国内外众多学者和研究人员研究的主题,并取得了一定的成绩,形成了一些比较成熟的基于PageRank算法和Hits算法的综合改进算法。本文首先说明了国内外搜索引擎排名算法的研究背景、发展现状,然后分析了搜索引擎的工作原理和关键技术,以及搜索引擎的三级评测指标,为本文的原型系统测试和算法验证提供了一定的依据。然后,剖析了传统PageRank算法和已改进的PageRank算法,分析了它们存在的优、缺点,为我们进一步改进PageRank算法提供了可能性。本文的重点是通过分析传统PageRank算法和已有PageRank算法的改进算法,提出了结合分类技术、相似度和时间反馈因子的PageRank算法的综合改进算法,改进后的算法主要是从网页预处理、网页的链接结构和网页爬行周期等方面对PageRank算法进行改进,提出了一种基于PageRank算法的综合改进算法,并设计了原型系统,同时,对改进算法进行验证,将实验结果和传统算法进行比较,发现改进后的算法可以提高搜索引擎的查准率,改善系统的查全率。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 本文的研究背景
  • 1.2 国内外研究现状
  • 1.3 本文的研究意义及主要工作
  • 1.4 本文的组织结构
  • 1.5 本章小结
  • 第二章 搜索引擎的相关知识
  • 2.1 搜索引擎的分类
  • 2.2 搜索引擎的工作原理
  • 2.3 搜索引擎的主要技术
  • 2.4 搜索引擎的关键技术
  • 2.5 搜索引擎性能评测指标
  • 2.6 本章小结
  • 第三章 经典搜索引擎排序算法研究
  • 3.1 PAGERANK算法的分析
  • 3.2 PAGERANK算法的原理
  • 3.3 HITS算法分析
  • 3.4 经典算法评价
  • 3.4.1 PageRank算法评价及现有改进方法
  • 3.4.2 HITS算法评价
  • 3.5 本章小结
  • 第四章 基于PAGERANK的综合排序算法设计
  • 4.1 分类技术与基于链接结构的算法结合
  • 4.1.1 分类技术
  • 4.1.2 网页的预处理
  • 4.1.3 基于数据库相关度的PageRank算法
  • 4.1.4 在修正算法中引入时间反馈因子
  • 4.1.5 PageRank算法修正
  • 4.2 本章小结
  • 第五章 原型系统研究
  • 5.1 技术选型
  • 5.1.1 数据库选择
  • 5.1.2 搜索引擎开发平台选择
  • 5.1.3 基本原理和结构
  • 5.2 NUTCH
  • 5.2.1 Lucene
  • 5.2.2 Nutch
  • 5.3 系统设计和实现
  • 5.3.1 基于Nutch的搜索引擎的系统结构
  • 5.3.2 系统用例
  • 5.3.3 系统流程
  • 5.3.4 系统结构分析
  • 5.3.5 数据库设计
  • 5.3.6 程序设计
  • 5.3.7 程序运行效果
  • 5.4 算法验证
  • 5.5 基于Nutch的搜索引擎系统评价
  • 5.6 本章小结
  • 第六章 结论和展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 在攻读硕士学位期间发表刊物
  • 致谢
  • 相关论文文献

    • [1].网络结构对专利PageRank与专利价值关系的门槛效应研究[J]. 科学学与科学技术管理 2020(02)
    • [2].基于叙词表语义关系和PageRank的查询扩展方法[J]. 情报杂志 2016(12)
    • [3].基于社交网络的PageRank算法改进[J]. 图书情报导刊 2017(04)
    • [4].圆圈结构及其变化系统的PageRank排名研究[J]. 计算机工程与应用 2017(09)
    • [5].Ranking Modules for Integrate Testing Based on PageRank Algorithm[J]. Chinese Journal of Electronics 2017(05)
    • [6].基于改进PageRank算法的路网重要交叉口筛选方法[J]. 西南交通大学学报 2016(05)
    • [7].基于洛伦兹变换和PageRank算法的数据资产估值[J]. 计算机系统应用 2020(08)
    • [8].高阶PageRank问题的一个两步分裂迭代算法[J]. 应用数学与计算数学学报 2018(03)
    • [9].基于PageRank算法的出租车需求预测[J]. 微型电脑应用 2019(04)
    • [10].基于关系网络的PageRank算法在禁毒情报上的应用研究[J]. 中国人民公安大学学报(自然科学版) 2019(01)
    • [11].基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究 2018(04)
    • [12].PageRank算法改进研究[J]. 软件导刊 2017(02)
    • [13].面向微博的PageRank算法的改进与应用[J]. 计算机应用与软件 2017(03)
    • [14].基于PageRank算法的网络关键节点查找[J]. 电脑知识与技术 2017(04)
    • [15].基于PageRank算法的图书影响力评价[J]. 中华医学图书情报杂志 2015(12)
    • [16].An adaptive improvement on PageRank algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B) 2013(01)
    • [17].加权PageRank算法研究综述[J]. 软件导刊 2013(02)
    • [18].PageRank在图书推荐技术中的应用研究[J]. 科技通报 2013(04)
    • [19].一种基于PageRank算法和知网的词义消歧方法[J]. 计算机应用与软件 2011(05)
    • [20].个性化PageRank算法在图书馆智能搜索引擎中的实现[J]. 现代情报 2010(07)
    • [21].PageRank算法在孤立点检测中的应用[J]. 微型机与应用 2010(24)
    • [22].基于PageRank的期刊评价研究[J]. 中国科技期刊研究 2009(04)
    • [23].基于转移概率的PageRank算法研究[J]. 科学技术与工程 2008(08)
    • [24].基于改进PageRank算法的轨道交通产业集群分析[J]. 交通运输工程与信息学报 2020(02)
    • [25].基于PageRank的用户影响力评价改进算法[J]. 哈尔滨工业大学学报 2018(05)
    • [26].基于PageRank的微博用户影响力评估模型研究[J]. 信息技术 2018(05)
    • [27].基于分布式PageRank算法的可疑目标挖掘[J]. 高技术通讯 2017(05)
    • [28].基于万有引力定律和PageRank的页面分类系统构建方法研究[J]. 情报科学 2015(06)
    • [29].基于中心词耦合度和PageRank的文本自动摘录算法[J]. 中山大学研究生学刊(社会科学版) 2013(03)
    • [30].一种融合PageRank的协同过滤帖子推荐方法[J]. 中国科学技术大学学报 2014(07)

    标签:;  ;  ;  ;  ;  

    搜索引擎PageRank算法研究
    下载Doc文档

    猜你喜欢