搜索引擎的研究与设计

搜索引擎的研究与设计

论文摘要

随着Internet的迅猛发展,web信息的与日剧增,人们想要在互连网快速搜索到准确信息就显得越来越困难。而搜索引擎技术则是以一定的策略在互联网中搜集、发现信息,同时对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用,搜索引擎的研究成为了计算机工业界和学术界争先研究和开发的对象。搜索引擎作为互联网上最主要的信息搜索工具,在各个领域都已得到广泛应用。然而,由于网络信息量迅猛增加和网络信息组织的无序性,人们对信息服务的个性化、智能化的需求也越来越高。针对以上问题,本文提出了一种简化的向量空间检索模型,基于Robot的搜索引擎系统,并在传统信息检索技术的基础上,对检索算法进行改进,提出一个能快速、准确地从数据库中挖掘出有价值的信息并送达客户的信息服务体系结构模型,并解决这一模型中所涉及到的数据分析与排序等关键技术问题。该模型能够具有高效、智能的特点。本文还对其中涉及的若干问题进行了详细的阐述。主要内容有:1. Web挖掘和信息检索理论。2.信息检索及搜索引擎的原理分析。3.详细研究了Google的PageRank(网页级别)算法,实现PageRank值作为一个重要的排名算法在基于Robot搜索引擎的排名算法中得到了应用。4.实现了基于Robot的搜索引擎的检索策略和排名策略的设计。并在设计中利用了PageRank算法来计算页面等级的值。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 搜索引擎概述
  • 1.2 搜索引擎存在的问题及原因分析
  • 1.3 课题设计目标
  • 第二章 web 挖掘技术
  • 2.1 web 挖掘技术的概述
  • 2.1.1 概念
  • 2.1.2 数据挖掘的主要任务
  • 2.2 web 信息挖掘步骤
  • 2.3 Web 挖掘的分类
  • 2.3.1 Web 内容挖掘
  • 2.3.2 Web 结构挖掘
  • 2.3.3 Web 日志挖掘
  • 2.4 Web 挖掘相关技术
  • 2.5 网络信息挖掘的应用前景
  • 第三章 信息检索
  • 3.1 计算机检索常用检索算符
  • 3.1.1 布尔逻辑算符
  • 3.1.2 截词符
  • 3.1.3 字段符
  • 3.1.4 位置算符
  • 3.2 检索策略
  • 3.3 检索效果评价
  • 第四章 搜索引擎的研究
  • 4.1 搜索引擎的定义、检索机制
  • 4.1.1 搜索引擎的定义
  • 4.1.2 搜索引擎的检索机制
  • 4.2 搜索引擎的分类
  • 4.2.1 基于Robot 的搜索引擎
  • 4.2.2 基于 Directory 的搜索引擎
  • 4.2.3 元搜索引擎
  • 4.3 搜索引擎的工作原理
  • 4.4 搜索引擎工作机制
  • 4.4.1 搜集器
  • 4.4.2 分析器
  • 4.4.3 索引器
  • 4.4.4 检索器
  • 4.4.5 用户接口
  • 4.4.6 搜索引擎的查询过程
  • 4.5 搜索引擎技术的发展趋势
  • 4.6 搜索引擎的性能比较
  • 4.6.1 三级指标体系的构成和权重
  • 4.6.2 主要搜索引擎的实际评测结果
  • 第五章 PageRank 算法分析及实现
  • 5.1 PageRank 算法简介
  • 5.2 PageRank 概念与算法简介
  • 5.3 PageRank 值的计算方法
  • 5.3.1 算法思想
  • 5.3.2 数学实现
  • 5.3.3 Jacobi 迭代算法
  • 5.3.4 Jacobi 迭代算法的实现与测试
  • 第六章 基于 Robot 的搜索引擎的设计
  • 6.1 开发环境
  • 6.2 系统设计
  • 6.2.1 系统架构
  • 6.2.2 系统工作原理
  • 6.3 系统的实现
  • 6.3.1 网络机器人的设计
  • 6.3.2 WEB 文件中的文本内容提取
  • 6.3.3 自动摘要的算法
  • 6.3.4 全文检索部分的设计
  • 6.3.5 基于Robot 搜索引擎接口的设计
  • 6.3.6 排名策略
  • 6.3.7 网页排名得分计算
  • 6.3.8 搜索引擎的接口规范
  • 6.4 系统测试
  • 6.5 结论
  • 6.6 进一步的研究
  • 第七章 总结
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].网络结构对专利PageRank与专利价值关系的门槛效应研究[J]. 科学学与科学技术管理 2020(02)
    • [2].基于叙词表语义关系和PageRank的查询扩展方法[J]. 情报杂志 2016(12)
    • [3].基于社交网络的PageRank算法改进[J]. 图书情报导刊 2017(04)
    • [4].圆圈结构及其变化系统的PageRank排名研究[J]. 计算机工程与应用 2017(09)
    • [5].Ranking Modules for Integrate Testing Based on PageRank Algorithm[J]. Chinese Journal of Electronics 2017(05)
    • [6].基于改进PageRank算法的路网重要交叉口筛选方法[J]. 西南交通大学学报 2016(05)
    • [7].基于洛伦兹变换和PageRank算法的数据资产估值[J]. 计算机系统应用 2020(08)
    • [8].高阶PageRank问题的一个两步分裂迭代算法[J]. 应用数学与计算数学学报 2018(03)
    • [9].基于PageRank算法的出租车需求预测[J]. 微型电脑应用 2019(04)
    • [10].基于关系网络的PageRank算法在禁毒情报上的应用研究[J]. 中国人民公安大学学报(自然科学版) 2019(01)
    • [11].基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究 2018(04)
    • [12].PageRank算法改进研究[J]. 软件导刊 2017(02)
    • [13].面向微博的PageRank算法的改进与应用[J]. 计算机应用与软件 2017(03)
    • [14].基于PageRank算法的网络关键节点查找[J]. 电脑知识与技术 2017(04)
    • [15].基于PageRank算法的图书影响力评价[J]. 中华医学图书情报杂志 2015(12)
    • [16].An adaptive improvement on PageRank algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B) 2013(01)
    • [17].加权PageRank算法研究综述[J]. 软件导刊 2013(02)
    • [18].PageRank在图书推荐技术中的应用研究[J]. 科技通报 2013(04)
    • [19].一种基于PageRank算法和知网的词义消歧方法[J]. 计算机应用与软件 2011(05)
    • [20].个性化PageRank算法在图书馆智能搜索引擎中的实现[J]. 现代情报 2010(07)
    • [21].PageRank算法在孤立点检测中的应用[J]. 微型机与应用 2010(24)
    • [22].基于PageRank的期刊评价研究[J]. 中国科技期刊研究 2009(04)
    • [23].基于转移概率的PageRank算法研究[J]. 科学技术与工程 2008(08)
    • [24].基于改进PageRank算法的轨道交通产业集群分析[J]. 交通运输工程与信息学报 2020(02)
    • [25].基于PageRank的用户影响力评价改进算法[J]. 哈尔滨工业大学学报 2018(05)
    • [26].基于PageRank的微博用户影响力评估模型研究[J]. 信息技术 2018(05)
    • [27].基于分布式PageRank算法的可疑目标挖掘[J]. 高技术通讯 2017(05)
    • [28].基于万有引力定律和PageRank的页面分类系统构建方法研究[J]. 情报科学 2015(06)
    • [29].基于中心词耦合度和PageRank的文本自动摘录算法[J]. 中山大学研究生学刊(社会科学版) 2013(03)
    • [30].一种融合PageRank的协同过滤帖子推荐方法[J]. 中国科学技术大学学报 2014(07)

    标签:;  ;  ;  

    搜索引擎的研究与设计
    下载Doc文档

    猜你喜欢