垂直搜索的算法研究

垂直搜索的算法研究

论文摘要

随着互联网上的信息量越来越大,传统的通用搜索引擎对信息的查找、索引越发显得力不从心,逐渐显露出“准确性差、时效性差、覆盖率低”等弊端。通用搜索引擎立意于满足用户的公共信息查询需求,它根据用户输入的查询串与索引页面在内容上的匹配程度的高低来筛选、返回页面。这种检索方式不但带回大量的无关页面,而且缺乏准确性与实效性,已不能满足人们日益增长的对个性化服务的需求。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。垂直搜索引擎的核心部分是垂直搜索算法。本文首先介绍通用搜索算法的基本原理和关键技术,并对这些算法的优缺点进行了分析,并在此基础上提出了垂直搜索算法。本文对通用的PageRank算法和Hits算法进行了改进:适当的增加主题关键词的权值,对相关的属性赋予适当比重的权值。针对传统的搜索算法产生“主题漂移”和“属性漂移”的问题,本文适当的调整了算法的权重因子,使算法尽可能的避免这类问题。本文对算法阀值的选取进行了讨论,并指出了需要考虑的因素及其对算法结果的影响。作者针对改进的算法设计了一个简单的实验环境,并对改进的算法进行了验证,实验表明,改进的算法能够适当的避免主题漂移等问题。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 论文的背景
  • 1.2 国内外研究现状
  • 1.3 研究的目的及意义
  • 1.4 本文的组织工作
  • 2 垂直搜索的工作原理及关键策略
  • 2.1 爬虫原理与爬行策略
  • 2.2 主题相关度计算策略
  • 2.3 中文分词策略简介
  • 2.4 主题向量的建立策略
  • 2.5 本章小结
  • 3 常用的垂直搜索的爬虫爬行算法研究
  • 3.1 传统网络爬虫的爬行算法
  • 3.2 主题爬虫的爬行算法
  • 3.3 本章小结
  • 4 PAGERANK算法和HITS算法的分析与改进
  • 4.1 PAGERANK算法的基本思想
  • 4.2 PAGERANK算法的分析与改进
  • 4.3 垂直搜索的阀值设立的考虑因素
  • 4.4 HITS算法的基本思想
  • 4.5 HITS算法的过程
  • 4.6 基于HITS算法改进的PRH算法
  • 4.7 基于HITS算法的改进的PRA算法
  • 4.8 本章小结
  • 5 改进算法的模拟实验与结果分析
  • 5.1 实验环境
  • 5.2 实验的设计
  • 5.3 实验的实现
  • 5.4 实验的结果及分析
  • 6 总结与展望
  • 致谢
  • 参考文献
  • 攻读硕士期间主要成果
  • 相关论文文献

    • [1].网络垂直搜索服务所涉法律问题研究——以图片垂直搜索服务为例[J]. 科技与法律 2018(03)
    • [2].垂直搜索更贴近需求或引领搜索市场发展方向[J]. 世界电信 2013(05)
    • [3].新一轮垂直搜索热潮来临 购物搜索为其重点[J]. 通信世界 2011(44)
    • [4].风投押宝垂直搜索 各方巨头介入又添疑点[J]. IT时代周刊 2008(01)
    • [5].垂直搜索:助推企业精准营销[J]. 销售与市场(管理版) 2012(04)
    • [6].垂直搜索分布图[J]. 互联网周刊 2012(18)
    • [7].垂直搜索:前进路上的喜与忧[J]. 互联网天地 2010(02)
    • [8].垂直搜索的出路?[J]. 中国企业家 2009(02)
    • [9].基于知识图谱的水利数据垂直搜索应用[J]. 山东水利 2018(05)
    • [10].金融垂直搜索新玩法[J]. 金融世界 2014(01)
    • [11].垂直搜索发展又现新样本[J]. 互联网天地 2009(11)
    • [12].垂直搜索市场的缝隙市场[J]. 互联网周刊 2008(01)
    • [13].二手汽车交易信息垂直搜索网的设计[J]. 重庆工学院学报(自然科学版) 2008(08)
    • [14].垂直搜索的精细化功夫[J]. 互联网天地 2008(08)
    • [15].垂直搜索的精细化功夫[J]. 微电脑世界 2008(09)
    • [16].面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版) 2016(07)
    • [17].垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J]. 现代图书情报技术 2009(02)
    • [18].蚕食Google[J]. 中国企业家 2009(06)
    • [19].垂直搜索与开源软件[J]. 软件世界 2008(02)
    • [20].三巨头“竞合时代”[J]. 英才 2008(06)
    • [21].基于SNS的搜索新模式[J]. 互联网天地 2010(11)
    • [22].基于互联网垂直搜索的葡萄酒溯源[J]. 中国战略新兴产业 2018(08)
    • [23].融360:用搜索解决金融服务的痛点[J]. 互联网周刊 2013(11)
    • [24].基于电子商务垂直搜索的网站交互界面设计[J]. 江西科学 2011(05)
    • [25].Web实体提取在垂直搜索中的应用研究[J]. 新技术新工艺 2008(12)
    • [26].垂直搜索引擎及其应用价值[J]. 信息技术 2008(04)
    • [27].奇搜网(Qeesoo):搜索但求少而精[J]. 竞争力 2009(03)
    • [28].网站简约本体垂直搜索系统的设计与实现[J]. 计算机工程与应用 2017(19)
    • [29].中国搜索上线 推国情理论等垂直频道[J]. 科技致富向导 2014(08)
    • [30].阿里云搜索要让谁睡不着?[J]. 电脑与电信 2013(Z1)

    标签:;  ;  ;  ;  

    垂直搜索的算法研究
    下载Doc文档

    猜你喜欢