最优搜索理论在元搜索引擎中的应用研究

论文摘要

根据统计，因特网每天新添几百万个文件，平均8个月增长1倍，其网页总数猛增至今的几百亿。如何有效的发现我们所需的信息已经成为一个关键性的问题，在这种背景下，产生了搜索引擎。但是随着因特网海量数据的产生，致使目前最好的搜索引擎其全球网页覆盖率也只有30％左右。而且由于不同的搜索引擎所采用的算法和搜索范围的不同，返回搜索结果的重复率不到34％。为了解决传统搜索引擎存在的问题，元搜索引擎应运而生。元搜索引擎的出现为人们带来了极大的便利，但也存在着一些问题制约着它的发展，如网络资源的限制，显示结果数和搜索时间不理想等。本文首先介绍了搜索引擎、元搜索引擎和最优搜索理论方面的相关知识，然后通过应用最优搜索理论和基于学习的方法建立最优分配模型来对当前的元搜索引擎模型进行改进，合理分配网络资源和选择成员搜索引擎，合理配置显示结果数和搜索时间，使得用户在自己设置的显示结果数和搜索时间下能获得最佳的搜索结果和性能，充分体现了人性化，满足了用户的实际需要，而又不给网络造成太大的负担。最后，通过结合网上现有的源代码我们设计并实现了一个并行式元搜索引擎。相比于一般的元搜索引擎由于结合了上述的技术，使用起来显得更加的人性化。然后我们对系统的响应时间和查准率进行分析。通过和普通搜索引擎以及之前的元搜索引擎相比，我们证明了该系统在查准率上对于一般的搜索引擎而言有着明显的优越性，在响应时间上也优于之前的元搜索引擎。

论文目录

摘要

Abstract

第一章绪论

1.1 研究动机与意义

1.2 论文工作和组织

第二章搜索引擎

2.1 概述

2.2 搜索引擎的工作原理

2.3 搜索引擎的分类

2.3.1 目录式搜索引擎

2.3.2 Robot 搜索引擎

2.4 搜索引擎中的检索排序技术

2.4.1 布尔检索模型

2.4.2 相关反馈的模型

2.4.3 向量空间模型

2.4.4 概率模型

2.4.5 链接分析模型

2.5 搜索引擎的评价

2.6 搜索引擎的缺陷

2.6.1 信息覆盖面不广

2.6.2 检索效率不高

2.6.3 使用不兼容

第三章元搜索引擎

3.1 元搜索引擎简介

3.2 元搜索引擎工作原理

3.3 元搜索引擎的分类

3.3.1 多线索式元搜索引擎

3.3.2 All-in-One 元搜索引擎

3.3.3 桌面元搜索引擎

3.4 元搜索引擎的优越性

3.5 元搜索引擎的不足

第四章成员搜索引擎的选择

4.1 定性的方法

4.2 定量的方法

4.3 基于学习的方法

4.3.1 SavvySearch 法

4.3.2 ProFusion 法

4.3.2.1 静态学习阶段

4.3.2.2 动态学习阶段

第五章最优搜索理论

5.1 最优搜索理论介绍

5.2 最优搜索理论的组成要素及问题分类方法

5.2.1 概率分布函数

5.2.2 探测函数

5.2.3 可用资源（effort）的约束条件

5.2.4 问题分类

5.2.5 资源分配策略的可加性

5.3 离散空间的静止目标搜索模型

5.4 最优搜索理论的应用

5.4.1 生物信息学领域

5.4.2 经济学领域

5.4.3 无线通信领域

5.4.4 模式分类与识别领域

第六章最优分配模型

6.1 成员搜索引擎的评价模型

6.1.1 提出模型

6.1.2 建立模型

6.1.2.1 静态学习阶段

6.1.2.2 动态学习阶段

6.2 结果分配约束模型

6.2.1 提出模型

6.2.2 建立模型

6.2.2.1 成员搜索引擎检索质量的概率分布

6.2.2.2 探测函数的确定

6.2.2.3 确定最优分配策略

6.3 时间分配约束模型

6.3.1 提出模型

6.3.2 建立模型

第七章最优分配模型的实现及评价

7.1 系统的实现

7.1.1 用户界面模块

7.1.2 成员搜索引擎选择模块

7.1.3 查询提交和返回结果抓取模块

7.1.4 显示结果和搜索时间分配模块

7.1.5 归并与排序模块

7.2 系统的评价

7.2.1 查准率

7.2.1.1 和普通搜索引擎进行比较

7.2.1.2 和改进前的系统进行比较

7.2.2 响应时间

7.2.2.1 平均响应时间的比较

7.2.2.2 最长响应时间的比较

第八章结论

致谢

参考文献

在学校期间的研究成果

最优搜索理论在元搜索引擎中的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢