论文摘要
如今网络搜索引擎成了人们获取信息的一个重要途径,人们在希望搜索引擎能够提供全面的信息资源的同时,也对搜索引擎的服务提出了更高的要求。如何能通过一种有效的方式获取最有用的信息是用户所需要的,也是个性化搜索引擎必须提供的一种服务。用户往往希望搜索引擎能够根据自己的实际情况来定制,这反应到信息检索领域便是个性化的搜索服务。目前传统的基于服务器端的搜索引擎虽然能够为用户解决兴趣搜索的需求,然而用户需要频繁地与行为数据库通信,这将造成行为数据库的超负荷运行。基于此,本文提出一种新式的搜索结构——轻量级个性化搜索引擎,以减少服务器端开销为目的,同时能够很好的解决因客户端存储限制的缺点造成的排序误差。这模式结合了客户端存储资源与服务器端用户兴趣库,同时引进了客户端服务代理技术,在一定程度上减少了服务器端用户兴趣库的访问瓶颈。另外客户端、服务器端与客户端服务代理三者的松耦合连接方式增加了个性化搜索引擎的灵活性。本文着重研究客户端、客户端服务代理与服务器端的通信规则,详细研究了在为用户提供高质量兴趣搜索服务的基础上如何减少三者之间的通信流量的问题。同时给出了客户端、客户端服务代理与服务器端用户兴趣的获取与更新算法。最后通过实验系统验证了轻量级个性化搜索引擎的可行性并与传统的基于服务器端的个性化搜索引擎进行了性能比对分析。实验证明轻量级个性化搜索引擎在服务器性能方面得到了一定程度的改善。
论文目录
摘要Abstract第1章 绪论1.1 课题研究的目的和意义1.2 国内外研究现状1.3 论文的主要内容及结构第2章 搜索引擎技术综述2.1 搜索引擎概述2.2 搜索引擎分类2.3 搜索引擎结构2.4 搜索引擎工作机制2.5 个性化搜索引擎2.6 搜索引擎中文分词2.7 本章小结第3章 个性化搜索引擎用户模型3.1 用户模型概述3.2 用户模型信息的获取3.3 用户模型的表示3.4 本章小结第4章 轻量级个性化搜索引擎的设计4.1 轻量级个性化搜索的信息检索方法4.2 轻量级个性化搜索引擎的系统结构4.3 轻量级个性化搜索引擎的系统原理4.4 Web文档表示模型4.5 中文分词设计4.5.1 中文分词系统处理逻辑4.5.2 分词预处理4.5.3 词库组织4.5.4 加载词库4.5.5 正向最长匹配4.5.6 逆向最长匹配4.6 用户兴趣的获取与模型的建立4.6.1 客户端存储用户兴趣记录的模型4.6.2 客户端代理存储用户兴趣记录的模型4.6.3 服务器端存储用户兴趣记录的模型4.7 匹配度计算4.8 个性化搜索实现的主要算法4.8.1 客户端用户搜索历史记录存储算法4.8.2 客户端代理用户兴趣模型更新算法4.8.3 服务器端用户兴趣模型更新算法4.8.4 基于用户兴趣模型的搜索结果过滤算法4.8.5 获取并拼接用户搜索历史记录的算法4.9 本章小结第5章 实验系统的实现与分析5.1 实验系统运行环境5.2 Lucene API5.3 中文分词实现5.4 索引Web文档5.5 分布式搜索实现5.6 实验结果5.7 实验分析5.8 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:搜索引擎论文; 个性化论文; 用户模型论文; 代理论文;