分布式实时垂直搜索引擎研究与实现

分布式实时垂直搜索引擎研究与实现

论文摘要

社交SNS、新闻等领域的高速发展使得人们愈发的关注在最快的时间内获取实效数据,从中挖掘到有价值的信息,实时搜索因此成为目前信息检索的研究重点。通用搜索引擎拥有海量网页信息集合,更关注于信息的全面性,Google对于最新网页的索引更新平均耗费几个小时,这样的更新速度很难满足网民的实时搜索需求。垂直搜索引擎专业领域性强、信息化集中程度高,目前的实时搜索研究集中在垂直搜索领域,实时垂直搜索针对特定领域和数据源,进行信息的快速检索和展示,为下一步的数据挖掘提供坚实的基础,具有重大的研究价值与经济价值。实时搜索技术难点在于增量索引构建算法及分布式环境下的容灾实现。本文首先研究了垂直搜索引擎和分布式系统基本工作原理。接着针对实时增量索引构建提出了内存+磁盘并行化实时索引构建索引的RSearch算法,RSearch算法采用全量索引写磁盘保证索引数据的一致性与完整性,实时增量索引直接写内存保证增量索引即时展现,内存磁盘、写满后复制至磁盘生成从磁盘索引,采用M*N的分布式模型切分大规模数据和满足高并发的访问需求,引入CommitLog日志机制,持久化实时索引请求,并设置Checkpoint异常回滚时间点,保证实时索引的数据容灾。在RSearch算法和Solr的基础上,构建了分布式实时垂直搜索RSolr系统,并针对RSolr搜索系统中存在的性能瓶颈如区间查询、排序、索引构建等性能进行了进一步优化。实验结果表明,相比较于Solr系统,RSolr系统在索引构建、搜索性能、实时展现、数据容灾备份、分布式性能方面优于前者,验证了RSolr系统的实时性、高效性、稳定性和可用性,证明了RSearch算法的可行性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 垂直搜索引擎的研究进展
  • 1.3 本文的研究内容
  • 1.4 本文结构
  • 第2章 分布式实时垂直搜索引擎研究综述
  • 2.1 搜索引擎基本理论与研究
  • 2.1.1 搜索引擎发展史
  • 2.1.2 搜索引擎工作原理
  • 2.1.3 搜索引擎关键技术研究
  • 2.1.4 搜索经典算法研究
  • 2.2 垂直搜索技术研究
  • 2.2.1 垂直搜索定义及分类
  • 2.2.2 垂直搜索引擎特征
  • 2.2.3 垂直搜索技术与研究
  • 2.2.4 垂直搜索应用状况及发展趋势
  • 2.3 Lucene搜索引擎研究
  • 2.3.1 Lucene发展研究
  • 2.3.2 Lucene搜索引擎架构及分析
  • 2.3.3 Lucene功能解析
  • 2.3.4 Lucene特点及应用
  • 2.3.5 Lucene倒排表研究
  • 2.4 Solr分布式搜索引擎研究
  • 2.4.1 Solr发展研究
  • 2.4.2 Solr系统架构与分析
  • 2.4.3 Solr特点及应用
  • 2.4.4 Solr配置文件解析
  • 2.5 分布式系统基础理论研究
  • 2.5.1 分布式系统特性及应用
  • 2.5.2 CAP原理及一致性模型
  • 2.6 Zookeeper分布式协调系统
  • 2.6.1 Zookeeper基本理论与架构
  • 2.6.2 ZooKeeper应用领域
  • 2.7 本章小结
  • 第3章 分布式实时搜索算法RSearch研究与实现
  • 3.1 实时搜索算法综述
  • 3.1.1 Fish实时抓取算法
  • 3.1.2 Google Percolator算法
  • 3.2 RSearch算法研究与RSolr系统实现
  • 3.2.1 分布式实时垂直搜索RSearch算法
  • 3.2.2 RSolr分布式实时垂直搜索系统实现
  • 3.3 RSolr分布式系统模块设计
  • 3.3.1 M*N分布式系统模块设计
  • 3.3.2 服务器模块设计
  • 3.3.3 信息抽取模块设计
  • 3.3.4 实时索引构建模块设计
  • 3.3.5 实时搜索模块设计
  • 第4章 RSolr系统性能测试与性能优化
  • 4.1 引言
  • 4.2 RSolr搜索性能优化
  • 4.2.1 调用协议优化
  • 4.2.2 区间查询优化
  • 4.2.3 排序优化
  • 4.2.4 实验结果及对比分析
  • 4.3 索引构建
  • 4.3.1 索引参数优化
  • 4.3.2 多线程索引优化
  • 4.3.3 多实例索引优化
  • 4.3.4 性能测试结果及对比
  • 4.3.5 性能测试分析
  • 4.4 分布式系统优化及分析
  • 4.4.1 分布式系统优化
  • 4.4.2 分布式系统实验
  • 4.4.3 实验结果分析
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读硕士学位期间发表论文目录
  • 相关论文文献

    • [1].广告索引[J]. 中国医药工业杂志 2019(11)
    • [2].广告索引[J]. 涂料工业 2019(12)
    • [3].本期广告索引[J]. 岩土工程学报 2019(12)
    • [4].广告索引[J]. 制造业自动化 2019(12)
    • [5].广告索引[J]. 中国医药工业杂志 2019(12)
    • [6].广告索引[J]. 油气田地面工程 2020(02)
    • [7].产品名称索引[J]. 中国公共安全 2019(12)
    • [8].本期广告索引[J]. 岩土工程学报 2020(01)
    • [9].栏目索引[J]. 农业装备与车辆工程 2019(12)
    • [10].第三十一卷(2019)索引[J]. 中外法学 2019(06)
    • [11].本期广告索引[J]. 广东通信技术 2019(11)
    • [12].公司索引[J]. 互联网周刊 2020(01)
    • [13].本期新种索引[J]. 菌物学报 2020(02)
    • [14].广告索引[J]. 香料香精化妆品 2020(01)
    • [15].广告索引[J]. 油气田地面工程 2020(03)
    • [16].广告索引[J]. 山东化工 2020(01)
    • [17].广告索引[J]. 造纸科学与技术 2019(06)
    • [18].本期广告索引[J]. 岩土工程学报 2020(02)
    • [19].信息索引[J]. 中国检验检测 2020(01)
    • [20].广告索引[J]. 铁道技术监督 2020(01)
    • [21].栏目索引[J]. 农业装备与车辆工程 2020(01)
    • [22].广告索引[J]. 水利信息化 2020(01)
    • [23].广告索引[J]. 储能科学与技术 2020(02)
    • [24].公司索引[J]. 电气时代 2020(02)
    • [25].广告、信息索引[J]. 广西蚕业 2019(04)
    • [26].广告索引[J]. 世界临床药物 2020(02)
    • [27].广告索引[J]. 中国医药工业杂志 2020(01)
    • [28].广告索引[J]. 油气田地面工程 2020(04)
    • [29].本期广告索引[J]. 广东化工 2020(06)
    • [30].广告索引[J]. 合成橡胶工业 2020(02)

    标签:;  ;  ;  ;  ;  

    分布式实时垂直搜索引擎研究与实现
    下载Doc文档

    猜你喜欢