论文摘要
根据统计,因特网每天新添几百万个文件,平均8个月增长1倍,其网页总数猛增至今的几百亿。如何有效的发现我们所需的信息已经成为一个关键性的问题,在这种背景下,产生了搜索引擎。但是随着因特网海量数据的产生,致使目前最好的搜索引擎其全球网页覆盖率也只有30%左右。而且由于不同的搜索引擎所采用的算法和搜索范围的不同,返回搜索结果的重复率不到34%。为了解决传统搜索引擎存在的问题,元搜索引擎应运而生。元搜索引擎的出现为人们带来了极大的便利,但也存在着一些问题制约着它的发展,如网络资源的限制,显示结果数和搜索时间不理想等。本文首先介绍了搜索引擎、元搜索引擎和最优搜索理论方面的相关知识,然后通过应用最优搜索理论和基于学习的方法建立最优分配模型来对当前的元搜索引擎模型进行改进,合理分配网络资源和选择成员搜索引擎,合理配置显示结果数和搜索时间,使得用户在自己设置的显示结果数和搜索时间下能获得最佳的搜索结果和性能,充分体现了人性化,满足了用户的实际需要,而又不给网络造成太大的负担。最后,通过结合网上现有的源代码我们设计并实现了一个并行式元搜索引擎。相比于一般的元搜索引擎由于结合了上述的技术,使用起来显得更加的人性化。然后我们对系统的响应时间和查准率进行分析。通过和普通搜索引擎以及之前的元搜索引擎相比,我们证明了该系统在查准率上对于一般的搜索引擎而言有着明显的优越性,在响应时间上也优于之前的元搜索引擎。
论文目录
摘要Abstract第一章 绪论1.1 研究动机与意义1.2 论文工作和组织第二章 搜索引擎2.1 概述2.2 搜索引擎的工作原理2.3 搜索引擎的分类2.3.1 目录式搜索引擎2.3.2 Robot 搜索引擎2.4 搜索引擎中的检索排序技术2.4.1 布尔检索模型2.4.2 相关反馈的模型2.4.3 向量空间模型2.4.4 概率模型2.4.5 链接分析模型2.5 搜索引擎的评价2.6 搜索引擎的缺陷2.6.1 信息覆盖面不广2.6.2 检索效率不高2.6.3 使用不兼容第三章 元搜索引擎3.1 元搜索引擎简介3.2 元搜索引擎工作原理3.3 元搜索引擎的分类3.3.1 多线索式元搜索引擎3.3.2 All-in-One 元搜索引擎3.3.3 桌面元搜索引擎3.4 元搜索引擎的优越性3.5 元搜索引擎的不足第四章 成员搜索引擎的选择4.1 定性的方法4.2 定量的方法4.3 基于学习的方法4.3.1 SavvySearch 法4.3.2 ProFusion 法4.3.2.1 静态学习阶段4.3.2.2 动态学习阶段第五章 最优搜索理论5.1 最优搜索理论介绍5.2 最优搜索理论的组成要素及问题分类方法5.2.1 概率分布函数5.2.2 探测函数5.2.3 可用资源 (effort) 的约束条件5.2.4 问题分类5.2.5 资源分配策略的可加性5.3 离散空间的静止目标搜索模型5.4 最优搜索理论的应用5.4.1 生物信息学领域5.4.2 经济学领域5.4.3 无线通信领域5.4.4 模式分类与识别领域第六章 最优分配模型6.1 成员搜索引擎的评价模型6.1.1 提出模型6.1.2 建立模型6.1.2.1 静态学习阶段6.1.2.2 动态学习阶段6.2 结果分配约束模型6.2.1 提出模型6.2.2 建立模型6.2.2.1 成员搜索引擎检索质量的概率分布6.2.2.2 探测函数的确定6.2.2.3 确定最优分配策略6.3 时间分配约束模型6.3.1 提出模型6.3.2 建立模型第七章 最优分配模型的实现及评价7.1 系统的实现7.1.1 用户界面模块7.1.2 成员搜索引擎选择模块7.1.3 查询提交和返回结果抓取模块7.1.4 显示结果和搜索时间分配模块7.1.5 归并与排序模块7.2 系统的评价7.2.1 查准率7.2.1.1 和普通搜索引擎进行比较7.2.1.2 和改进前的系统进行比较7.2.2 响应时间7.2.2.1 平均响应时间的比较7.2.2.2 最长响应时间的比较第八章 结论致谢参考文献在学校期间的研究成果
相关论文文献
标签:最优搜索理论论文; 元搜索引擎论文; 搜索引擎论文; 显示结果论文; 响应时间论文;