基于综合倒排索引的个性化搜索技术研究

基于综合倒排索引的个性化搜索技术研究

论文摘要

随着搜索引擎技术的不断发展,个性化搜索已经成为了人们研究的热点。本文针对目前搜索引擎存在的不足,充分研究了搜索引擎和个性化搜索的发展现状,并且提出在建立普通倒排索引的基础上,再建立一个个性化综合倒排索引。普通倒排索引通过对文档进行自动分词后产生,个性化综合倒排索引主要是结合用户的主观能动性,记录用户对文档进行手工标引的关键词、主题词和评语等信息,同时采用渠道奖励词频算法和文档关注度算法动态更新综合倒排索引。本文利用Lucene实现了一个功能较为简单的个性化搜索引擎,设定搜索时先在个性化综合倒排索引中检索,当检索信息不能满足用户需求时再到普通倒排索引中查找,这样当用户查找信息时尽可能将用户感兴趣的信息显示在最前面。本文的主要工作如下:对搜索引擎、个性化搜索和倒排索引的研究现状和存在问题进行了简要综述。对基于关键词的个性化文档处理系统中的相关技术进行了研究。对综合倒排索引及其词频渠道奖励算法和文档关注度算法进行研究并提出了改进算法。利用开源代码Lucene设计了一个简单的系统,该系统能实现索引的建立、添加、更新和文档搜索。本文的研究与探索为进一步研究搜索引擎的个性化技术提供了新的思路。

论文目录

  • 摘要
  • Abstract
  • 第1章 序言
  • 1.1 研究背景
  • 1.2 研究的内容和目标
  • 1.3 论文的组织结构
  • 第2章 搜索技术研究现状
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎的分类
  • 2.1.2 全文搜索引擎的工作原理
  • 2.1.3 评价搜索引擎的主要指标
  • 2.1.4 开源搜索引擎简介
  • 2.2 个性化搜索研究现状
  • 2.2.1 个性化服务系统
  • 2.2.2 用户兴趣模型研究
  • 2.3 倒排索引研究现状
  • 2.3.1 倒排索引基本原理
  • 2.3.2 倒排索引相关技术研究
  • 2.3.3 倒排索引的搜索算法
  • 2.4 本章小结
  • 第3章 基于关键词的个性化文档处理系统概述
  • 3.1 相关定义
  • 3.2 系统组织结构
  • 3.3 信息组织部件的结构与功能
  • 3.4 研究重点
  • 3.5 本章小结
  • 第4章 个性化综合倒排索引的关键技术
  • 4.1 综合倒排索引概述
  • 4.2 改进的综合倒排索引
  • 4.2.1 普通倒排索引和个性化综合倒排索引的有效结合
  • 4.2.2 对综合倒排索引的改进
  • 4.2.3 对文档关注度表的改进
  • 4.3 个性化综合倒排索引的添加
  • 4.3.1 单渠道词频奖励
  • 4.3.2 多渠道词频奖励
  • 4.4 个性化综合倒排索引的更新
  • 4.4.1 遗忘算法基本思想
  • 4.4.2 遗忘算法应用
  • 4.5 本章小结
  • 第5章 基于综合倒排索引的个性化搜索技术在Lucene中的实现
  • 5.1 Lucene简介
  • 5.1.1 Lucene系统的结构组织
  • 5.1.2 Lucene与搜索引擎的关系
  • 5.1.3 Lucene索引的建立
  • 5.1.4 Lucene索引性能的提高
  • 5.1.5 Lucene索引中文档的删除和更新
  • 5.1.6 Lucene中对文档的搜索
  • 5.2 个性化综合倒排索引的实现
  • 5.2.1 个性化综合倒排索引的建立
  • 5.2.2 添加索引词标注信息
  • 5.2.3 文档关注度更新
  • 5.3 个性化搜索的实现
  • 5.4 本章小结
  • 第6章 总结和展望
  • 6.1 总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 附录
  • 攻读学位期间公开发表的论文
  • 相关论文文献

    • [1].倒排索引压缩算法研究综述[J]. 小型微型计算机系统 2020(04)
    • [2].编码单位可变的倒排索引压缩算法研究[J]. 计算机工程与应用 2019(15)
    • [3].基于综合倒排索引的个性化搜索引擎研究[J]. 微计算机信息 2008(27)
    • [4].基于大数据倒排索引技术的外语写作教学辅助系统研究与实现[J]. 外语电化教学 2015(03)
    • [5].基于用户的个性化综合倒排索引[J]. 杭州师范大学学报(自然科学版) 2008(03)
    • [6].一种倒排索引压缩方法[J]. 计算机应用研究 2019(01)
    • [7].基于倒排索引结构的寻亲系统的设计[J]. 信息技术 2018(10)
    • [8].海量配电网调度监测信息的非主行键倒排索引查询技术[J]. 电力系统保护与控制 2018(23)
    • [9].分布式搜索引擎中关键词倒排索引方法仿真[J]. 计算机仿真 2019(08)
    • [10].并行密文倒排索引研究[J]. 计算机工程与应用 2016(20)
    • [11].基于Map/Reduce框架实现的倒排索引文本检索[J]. 智能城市 2019(11)
    • [12].基于倒排索引的问答系统的设计与实现[J]. 教育教学论坛 2018(35)
    • [13].个性化综合倒排索引在Lucene中的应用[J]. 电脑知识与技术 2010(04)
    • [14].基于扩展倒排索引的不确定XML关键字查询算法[J]. 计算机应用与软件 2015(04)
    • [15].基于多哈希算法的大规模图像快速检索方法[J]. 计算机工程与科学 2016(07)
    • [16].倒排索引中的文档序号重排技术综述[J]. 中文信息学报 2015(02)
    • [17].两种重复提取算法的研究比较[J]. 网络安全技术与应用 2009(01)
    • [18].一种由B+树实现的倒排索引[J]. 电脑知识与技术 2011(08)
    • [19].一种基于倒排索引的频繁项集挖掘方法[J]. 长春理工大学学报(自然科学版) 2019(02)
    • [20].面向期刊论文的搜索技术的研究与设计[J]. 信息技术 2018(08)
    • [21].关于信息检索方法的探讨[J]. 数码世界 2019(04)
    • [22].基于单指令级并行的快速求交算法[J]. 山东大学学报(理学版) 2018(03)
    • [23].Lucene索引技术的研究[J]. 硅谷 2009(24)
    • [24].一种KeyGraph的建模方法[J]. 中北大学学报(自然科学版) 2014(02)
    • [25].关键词有序排列的全文检索算法[J]. 上海电力学院学报 2013(04)
    • [26].一种并行计算平台KD-60上的可实时更新文本搜索[J]. 小型微型计算机系统 2012(04)
    • [27].支持结果排序的安全密文检索方法研究[J]. 计算机科学 2018(05)
    • [28].一种基于倒排索引的海量工况数据库方案[J]. 企业技术开发 2011(03)
    • [29].倒排索引查询处理技术[J]. 计算机工程与设计 2015(03)
    • [30].分布式环境下多关键词并行密文检索方案[J]. 计算机应用 2019(10)

    标签:;  ;  ;  ;  ;  

    基于综合倒排索引的个性化搜索技术研究
    下载Doc文档

    猜你喜欢