智能元搜索引擎关键技术研究

论文摘要

现有的搜索引擎存在覆盖率低和查准率低的缺陷,无法充分满足用户对信息的快速性与有效性要求。元搜索引擎通过调用多个搜索引擎来实现搜索,能较好解决现有搜索引擎的缺陷,但仍然存在智能化程度低、搜索结果的易用性差、无法满足个性化需求等问题。本文系统综述了智能元搜索引擎技术的研究现状和发展趋势,设计了一个基于Multi-Agent的智能元搜索引擎系统结构模型,并对其中的关键技术进行了研究。数据挖掘能够提取数据中隐含的知识,Web数据挖掘技术应用于搜索引擎中,为Web信息的利用提出了新的解决方案。Agent技术的发展日趋成熟,可有效应用于用户个性化智能信息检索中。因此,Web数据挖掘技术、智能Agent技术与元搜索引擎技术相融合,可提高元搜索引擎的智能化水平,使元搜索引擎技术上升到一个新的高度。本文的主要创新性成果如下所述:1.在元搜索引擎中吸收了聚类搜索引擎和个性化检索的关键元素,提出了一个基于Multi-Agent的智能元搜索引擎系统结构模型。采用移动Agent和常驻Agent相结合的搜索机制使系统具有更强的适应性,利用并行约简算法实现了常驻Agent对搜索结果的动态合并,可有效避免在结果合成Agent处产生瓶颈。给出了用户个性化模式的表示机制和更新机制,运用个性化检索和聚类浏览相结合的检索方式既能满足用户的个性化要求,提高用户查询的查准率,又能实现对搜索结果的结构化组织,便于用户快速定位有效信息。2.提出了一种基于虚拟语言模型的成员搜索引擎选择算法。采用将成员搜索引擎数据库与概念相关联的技术,通过静态学习得到数据库与各个概念之间的相关度,并建立数据库的特征描述。对于用户查询,先将其映射到相关概念,然后利用虚拟语言模型计算查询与成员搜索引擎数据库之间的相关性,结合用户对搜索引擎的偏好度实现个性化的成员搜索引擎调度策略。本算法可以弥补Web信息检索中短查询存在的问题,同时提高数据库选择的速度。实验结果表明该算法在搜索结果的查询精度上比采用CORI算法有明显的提高。3.针对结果合成算法中搜索引擎性能不均衡带来的问题,提出了一种基于群决策的合成算法。对搜索结果的排序位置和文本信息进行规范化处理得到文档的相关分值,平衡搜索引擎之间的差异。利用搜索引擎的性能评价,提出改进的影子文档方法估算非相关文档的分值。考虑成员搜索引擎对用户查询意图的相关程度因素,引入群决策思想实现对搜索结果的排序,将与用户查询意图密切相关的结果排在搜索结果的前面,从而提高查准率。该算法充分利用搜索结果的信息,计算简单、易于实现。实验结果表明与成员搜索引擎相比,其平均相关性有明显提高,并且优于Round-robin、CombSum和CombMNZ三种合成算法。4.为了获得明确的聚类主题,提出了一种基于概念分组的Web搜索结果聚类算法。对概念分组算法进行了改进,突破了其对查询特征项的限制,利用特征词的同现文档频率来建立概念分组,进而挖掘Web搜索结果之间的语义关联,产生对查询主题的概念描述,实现对搜索结果的聚类。类别标签的选择综合考虑了特征词在类内和文档集中的重要性,使得标签具有较强的文档区分性。算法中对特征词选择进行了优化,保证了产生的类别标签具有明确的含义;通过对搜索结果的语义挖掘,实现了对Web搜索结果的主题发现,同时,具有对同义词的扩展能力。该算法具有较低的时间复杂度,能够满足实时的、语义的、重叠聚类的要求。实验结果表明该算法聚类性能较好,明显优于K-means聚类算法,并且具有较强的自适应性。与中文聚类搜索引擎比比猫相比,在聚类质量和类别标签上都与之相近,但能够产生含义更为明确的类别标签。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 成员搜索引擎数据库选择研究

1.2.2 搜索结果合成处理研究

1.2.3 元搜索引擎的个性化和智能化研究

1.3 论文结构安排

1.4 论文创新点

第二章智能元搜索引擎技术的相关理论

2.1 向量空间模型

2.1.1 文档的向量化表示

2.1.2 相似度计算

2.2 搜索引擎

2.2.1 搜索引擎的结构

2.2.2 搜索引擎的分类

2.2.3 搜索引擎结果排序

2.3 元搜索引擎

2.3.1 元搜索引擎的体系结构

2.3.2 元搜索引擎的分类

2.3.3 元搜索引擎的技术难点

2.3.4 元搜索引擎的发展趋势

2.4 聚类浏览技术

2.4.1 文本聚类的概念

2.4.2 常用文本聚类方法

2.4.3 聚类浏览技术的基本要求

2.4.4 聚类浏览技术的分类

2.4.5 聚类浏览技术的评价方法

2.4.6 聚类浏览技术的发展方向

2.5 小结

第三章基于Multi-Agent的智能元搜索引擎模型设计

3.1 引言

3.2 Agent技术

3.2.1 Agent的内涵

3.2.2 Multi-Agent系统

3.2.3 移动Agent与传统分布式技术的比较

3.3 基于Multi-Agent的智能元搜索引擎系统模型整体设计

3.3.1 MAIME系统的ASM设计

3.3.2 MAIME系统的Agent结构设计

3.3.3 MAIME模型的系统结构

3.3.4 基于Petri网的MAIME建模

3.4 模型的技术分析

3.4.1 移动Agent和常驻Agent相结合的搜索机制

3.4.2 个性化和聚类浏览相结合的检索方式

3.5 小结

第四章成员搜索引擎选择算法研究

4.1 引言

4.2 典型的成员搜索引擎选择算法

4.2.1 定性方法

4.2.2 定量方法

4.2.3 基于学习的方法

4.3 基于虚拟语言模型的成员搜索引擎选择算法

4.3.1 算法设计思路

4.3.2 基于主题概念的数据库特征描述

4.3.3 基于虚拟语言模型的数据库选择算法

4.3.4 算法小结

4.4 实验结果与分析

4.4.1 数据集合构建

4.4.2 评价方法

4.4.3 实验结果

4.5 小结

第五章元搜索引擎结果合成算法研究

5.1 引言

5.2 典型的结果合成算法

5.2.1 基于位置信息的合成算法

5.2.2 基于分值的合成算法

5.2.3 基于内容的合成算法

5.2.4 重叠文档在结果合成中的处理方法

5.2.5 实际应用中元搜索引擎的合成算法

5.3 搜索结果合成的预处理技术

5.3.1 无效链接检查

5.3.2 查询结果消重

5.4 基于群决策的结果合成算法

5.4.1 相关分值的规范化

5.4.2 非相关文档的相关分值估算

5.4.3 相关分值合并

5.4.4 算法小结

5.5 实验结果与分析

5.5.1 数据集合构建

5.5.2 评价方法

5.5.3 实验结果

5.6 小结

第六章搜索结果聚类算法研究

6.1 引言

6.2 典型搜索结果聚类算法

6.2.1 传统聚类算法的应用

6.2.2 典型Web Snippets聚类算法

6.3 基于概念分组的聚类算法

6.3.1 概念分组技术

6.3.2 概念分组算法的改进

6.3.3 Web搜索结果聚类算法的步骤

6.3.4 算法小结

6.4 实验结果与分析

6.4.1 评价数据集合构建

6.4.2 评价方法

6.4.3 实验结果

6.5 小结

第七章总结与展望

7.1 研究总结

7.2 进一步的研究工作

致谢

参考文献

读博期间的学术论文和参加的科研项目

智能元搜索引擎关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢