基于分布式的垂直搜索引擎的研究与实现

基于分布式的垂直搜索引擎的研究与实现

论文摘要

在全球互联网资源急剧膨胀的情况下,搜索引擎技术为人们查找所需资料提供了一个良好的接口。然而,面对通用搜索引擎的信息量大、查询不准确、深度不够等问题,垂直搜索引擎应运而生,它是一种新的搜索引擎服务模式,其特点就是“专、精、深”,只针对特定主题范围内的信息进行检索,检索速度快、信息集中、信息可利用率高。同时,面对海量数据,分布式技术是一个较好的切入点,虽然增加了系统的开销和设计的复杂性,但是可以大幅度提高信息采集和检索的效率,其研究具有巨大的商业价值和广阔的应用前景。本论文对当前搜索引擎的相关技术进行了研究,并结合垂直搜索引擎和分布式的相关技术设计出一种分布式垂直搜索引擎的系统结构,它由网页采集、信息检索及后台管理系统等组成,用于实现网页的抓取、检索以及提供以推荐、导出、二次开发接口为交互形式的信息整合功能,系统功能强大、易用、稳定、人性化。网页采集即网络爬虫WebSpider,它是系统数据的主要来源,并且是一个独立性相对较高的业务产品模块,它的性能直接影响了采集信息的数量与质量。采集底层采用开源项目Nutch作为支撑,实现了一个基于RMI技术的分布式垂直搜索爬虫,它利用动态脚本JavaScript分析技术和XPath技术对特定的元数据信息进行抽取,也可以通过定制编程解析器来抽取元数据,最终将处理完的信息存储到数据库。索引和检索搭建在现阶段比较流行的开源项目Lucene上,分布式采用了Hadoop中调度节点和任务节点的思想,它们之间通过RPC方式进行通信,调度节点会定时通过心跳检查判断分布式系统中可用任务节点。排序算法采用了改进的Lucene积分排序算法,数据去重使用了纯Java开发的轻量级HSQLDB嵌入式数据库,最后设计了功能丰富、样式美观的信息检索前台端展示界面。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题来源与选题背景
  • 1.2 研究的意义和目标
  • 1.3 国内外发展现状
  • 1.4 研究内容与论文结构
  • 1.5 本章小结
  • 第2章 搜索引擎工作原理和相关技术
  • 2.1 搜索引擎原理
  • 2.2 搜索引擎的分类
  • 2.2.1 通用搜索引擎
  • 2.2.2 目录式搜索引擎
  • 2.2.3 元数据搜索引擎
  • 2.3 网页抓取下载技术
  • 2.3.1 网络蜘蛛
  • 2.3.2 网络蜘蛛的工作原理
  • 2.3.3 网页采集程序的实现
  • 2.4 索引和检索技术
  • 2.4.1 索引的基本结构
  • 2.4.2 索引程序的设计
  • 2.4.3 检索程序的设计实现
  • 2.5 本章小结
  • 第3章 分布式垂直搜索引擎介绍以及相关技术
  • 3.1 分布式垂直搜索引擎的发展和原理
  • 3.2 分布式垂直搜索引擎基本技术
  • 3.2.1 分布式基本原理
  • 3.2.2 大型通用垂直搜索引擎的分布式系统架构
  • 3.3 LUCENE索引技术研究
  • 3.3.1 Lucene简介
  • 3.3.2 Lucene的组织结构
  • 3.3.3 Lucene的索引文件格式
  • 3.4 安全检索
  • 3.5 本章小结
  • 第4章 分布式垂直搜索引擎系统的设计
  • 4.1 分布式搜索引擎设计
  • 4.1.1 系统整体架构设计
  • 4.1.2 系统功能结构图
  • 4.1.3 系统软件体系结构
  • 4.1.4 系统分布式架构
  • 4.1.5 面向税务的业务模型设计
  • 4.2 采集模块设计
  • 4.2.1 频道和任务设计
  • 4.2.2 分布式采集器设计
  • 4.2.3 抓取详细配置设计
  • 4.3 检索模块的设计
  • 4.3.1 检索服务器设计
  • 4.3.2 索引接口设计
  • 4.3.3 索引去重的研究
  • 4.3.4 索引排序算法研究
  • 4.4 搜索引擎UI设计
  • 4.4.1 面向Web层后台管理系统集成设计
  • 4.4.2 用户前端检索设计
  • 4.5 本章小结
  • 第5章 分布式垂直搜索引擎系统实现
  • 5.1 系统开发平台与运行环境
  • 5.1.1 开发环境
  • 5.1.2 运行环境
  • 5.2 数据库及其表的构建
  • 5.3 功能模块实现
  • 5.3.1 采集模块实现
  • 5.3.2 检索模块实现
  • 5.4 本章小结
  • 第6章 结论与展望
  • 6.1 研究成果总结
  • 6.2 本文的创新之处
  • 6.3 未来工作展望
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].毛谦[J]. 数字通信世界 2009(11)
    • [2].励山学人——张伦博士[J]. 楚雄师范学院学报 2016(11)
    • [3].精深治学 儒雅育人[J]. 沈阳农业大学学报(社会科学版) 2017(01)
    • [4].天翔物产集团孟翔先生祝“世界华人创业楷模”颁奖典礼圆满成功[J]. 商品与质量 2011(22)
    • [5].夏启斌研究员[J]. 华南理工大学学报(自然科学版) 2017(06)
    • [6].孙佐教授[J]. 池州学院学报 2017(06)
    • [7].刘颖博士[J]. 西安邮电学院学报 2012(01)
    • [8].春华秋实,岁月有辛勤付出才美丽 桃李芬芳,人生看学生成才而快乐——哈尔滨工业大学计算机科学与技术学院苏小红教授[J]. 计算机教育 2010(03)
    • [9].原素欣——不畏艰险嵌“明珠”[J]. 河北水利 2017(08)
    • [10].商锋教授[J]. 西安邮电学院学报 2011(05)
    • [11].吴玉程 教授[J]. 太原理工大学学报(社会科学版) 2019(06)
    • [12].华工学人[J]. 华南理工大学学报(自然科学版) 2016(10)
    • [13].李勇教授[J]. 华南理工大学学报(自然科学版) 2016(11)
    • [14].华工学人[J]. 华南理工大学学报(自然科学版) 2017(02)
    • [15].学者风采[J]. 成都工业学院学报 2017(02)
    • [16].丁义超教授[J]. 成都工业学院学报 2019(04)
    • [17].“婚内财产约定”赢得101万精神赔偿[J]. 祝你幸福(知心) 2008(04)
    • [18].广东广播电视大学、广东理工职业学院·学人简介[J]. 广东广播电视大学学报 2013(03)
    • [19].德国人提出SLM概念后,她是及时跟进研究的中国学者之一[J]. 工业技术创新 2017(04)
    • [20].颜君彪教授[J]. 湖南文理学院学报(自然科学版) 2013(03)
    • [21].華工學人[J]. 华南理工大学学报(自然科学版) 2016(12)
    • [22].能源化工业十大领军人物[J]. 中国经济周刊 2008(49)
    • [23].学者风采[J]. 成都工业学院学报 2020(02)
    • [24].华工学人[J]. 华南理工大学学报(自然科学版) 2014(03)
    • [25].学者风采[J]. 中国石油大学胜利学院学报 2020(03)
    • [26].李华志教授[J]. 成都工业学院学报 2018(04)
    • [27].华工学人[J]. 华南理工大学学报(自然科学版) 2014(04)
    • [28].华工学人[J]. 华南理工大学学报(自然科学版) 2011(05)
    • [29].学者风采[J]. 成都工业学院学报 2017(03)
    • [30].何慧教授[J]. 华南理工大学学报(自然科学版) 2014(06)

    标签:;  ;  ;  ;  

    基于分布式的垂直搜索引擎的研究与实现
    下载Doc文档

    猜你喜欢