垂直搜索引擎在网络购物系统中的研究与应用

垂直搜索引擎在网络购物系统中的研究与应用

论文摘要

随着信息技术的迅速发展,互联网已经成为了当今世界上最大的信息存储库,它为人们提供了良好的信息共享和资源共享的服务。但是互联网上信息量的急剧增加也带了大量的重复信息和垃圾信息,用户很难在这种环境中找到自己需求的信息及资源,那么如何高效地检索互联网信息就成为了必须解决的问题。在这种情况下,针对特定的人群及特定的领域范围的垂直搜索引擎就应运而生,也成为了搜索引擎的一个研究热点。本论文的研究就是围绕这一热点展开的。本文研究了如何实现一个应用于购物系统的针对网络购物的购物垂直搜索引擎。本文对通用搜索引擎的工作原理和主要组成部分作了介绍,进而讲述了垂直搜索引擎的特点。为了实现该系统,本文引入了通用搜索引擎的架构模型,即网络抓取、预处理和索引、检索器、用户接口四部分,重点讲述了这些组成部分各自的工作原理和实现方式,阐述了专题网络蜘蛛的搜索策略及信息过滤方法,如何对网页信息进行预处理以满足索引的建立需要,如何建立最终的数据索引,以及对搜索结果的大量网页进行排序。其中还用到了开源的全文索引引擎Apache Lucene和网页抓取Heritrix,对它们也做了介绍。在设计开发的过程中,依照现代软件工作的代码重用要求重用了其中的部分源码,并在它们的基础上进行了进一步的改进,更好实现了系统所需功能,以使它们更好地为系统服务。本文所设计的垂直搜索引擎与目前的通用搜索引擎的最大区别就在于是否面向于特定的人群以及针对了专业的搜索范围,在购物系统中具有其可应用性,相信垂直搜索引擎能够为本领域内的用户提供很大的方便和帮助。

论文目录

  • 摘要
  • Abstract
  • 1. 绪论
  • 1.1 课题来源及研究背景
  • 1.2 国内外的研究现状
  • 1.3 课题的内容及意义
  • 1.4 论文的组织结构及内容
  • 2. 搜索引擎概述
  • 2.1 通用搜索引擎的发展过程及分类
  • 2.1.1 通用搜索引擎的历史
  • 2.1.2 通用搜索引擎的分类
  • 2.2 通用搜索引擎的工作原理及主要技术
  • 2.2.1 数据挖掘
  • 2.2.2 通用搜索引擎的工作原理
  • 2.2.3 通用搜索引擎的主要技术
  • 2.4 搜索引擎的性能评价指标
  • 2.5 本章小结
  • 3. 垂直搜索引擎的系统设计
  • 3.1 垂直搜索引擎的定义
  • 3.2 垂直搜索引擎的系统设计及组成原理
  • 3.3 垂直搜索引擎的优点与必要性
  • 3.4 本章小结
  • 4. 网页抓取子系统
  • 4.1 网络蜘蛛
  • 4.1.1 通用网络蜘蛛
  • 4.1.2 主题网络蜘蛛
  • 4.1.3 主题网络蜘蛛的优越性
  • 4.2 网页搜索策略
  • 4.2.1 深度优先策略
  • 4.2.2 广度优先策略
  • 4.2.3 不重复抓取策略
  • 4.3 主题网络蜘蛛的结构设计
  • 4.4 网页抓取的实现
  • 4.4.1 Heritrix 介绍
  • 4.4.2 抓取网页
  • 4.5 本章小结
  • 5. 预处理和索引子系统
  • 5.1 网页预处理的实现
  • 5.1.1 HTML 基本语法分析
  • 5.1.2 HTML Parser 简介
  • 5.1.3 抽取网页信息
  • 5.2 倒排索引
  • 5.2.1 倒排索引
  • 5.2.2 倒排索引的建立
  • 5.3 建立索引模块的实现
  • 5.3.1 Lucene 简介
  • 5.3.2 Lucene 的优点
  • 5.3.3 Lucene 的结构
  • 5.3.4 建立索引
  • 5.4 本章小结
  • 6. 用户接口子系统
  • 6.1 查询界面及结果返回
  • 6.2 搜索结果排序技术
  • 6.3 与通用搜索引擎的对比
  • 6.4 本章小结
  • 7. 总结与展望
  • 7.1 工作总结
  • 7.2 未来展望
  • 参考文献
  • 致谢
  • 个人简历
  • 发表的学术论文
  • 相关论文文献

    • [1].支配搜索引擎偏向行为的市场封锁效应[J]. 产业经济评论 2019(06)
    • [2].基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术 2009(05)
    • [3].后搜索引擎时代的选择[J]. 互联网周刊 2008(06)
    • [4].垂直搜索引擎探索[J]. 甘肃高师学报 2013(02)
    • [5].垂直和通用搜索引擎的差异和案例分析[J]. 现代情报 2009(03)
    • [6].基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术 2010(02)
    • [7].寻找老同学[J]. 电脑迷 2010(12)
    • [8].Simply Hired:职位搜索新天地[J]. 电脑与电信 2009(03)
    • [9].中文局域网搜索引擎的有关介绍[J]. 读与写(教育教学刊) 2009(02)
    • [10].基于网络知识库与通用搜索引擎的查询词扩展方法[J]. 计算机应用 2012(S2)
    • [11].国内三大通用搜索引擎的垂直搜索功能比较[J]. 内蒙古科技与经济 2013(09)
    • [12].基于Internet的Web Services收集方法[J]. 计算机科学与探索 2011(11)
    • [13].主题Web挖掘研究[J]. 计算机技术与发展 2008(02)
    • [14].资源巧搜索 效率成倍增[J]. 电脑爱好者 2014(04)
    • [15].校园内网搜索引擎构建的必要性分析[J]. 科技资讯 2012(02)
    • [16].林业主题爬虫的算法研究与设计[J]. 计算机工程与设计 2011(06)
    • [17].主题爬虫的关键技术[J]. 现代计算机(专业版) 2014(03)
    • [18].对垂直搜索技术的分析[J]. 福建电脑 2009(02)
    • [19].搜索引擎二次开发的设计与实现[J]. 上海工程技术大学学报 2010(01)
    • [20].手机产品垂直搜索引擎的设计与实现[J]. 计算机与网络 2013(05)
    • [21].微图览胜[J]. 图书馆建设 2015(05)
    • [22].基于Nutch的医学信息搜索引擎研究与实现[J]. 软件导刊 2014(06)
    • [23].面向中等职业教育资源的垂直搜索引擎框架设计与研究[J]. 工业和信息化教育 2013(02)
    • [24].主题Deep Web爬虫框架研究[J]. 计算机工程与设计 2010(05)
    • [25].网络爬虫技术原理[J]. 计算机与网络 2018(10)
    • [26].论网络爬虫搜索策略[J]. 山西广播电视大学学报 2013(02)
    • [27].基于农业信息的搜索引擎结构分析[J]. 绥化学院学报 2013(06)
    • [28].掌握搜索技巧 提升学生信息获取能力[J]. 中国教育信息化 2014(22)
    • [29].面向主题的信息检索[J]. 软件 2013(06)
    • [30].基于本体的教学信息抽取设计[J]. 现代情报 2009(03)

    标签:;  ;  ;  ;  

    垂直搜索引擎在网络购物系统中的研究与应用
    下载Doc文档

    猜你喜欢