基于维基百科的搜索引擎检索结果聚类

论文摘要

搜索引擎的广泛应用为人们充分利用Web丰富的资源提供了重要保证,然而,Web网页数量巨大以及查询的信息不容易用简短词组准确表达,导致一次搜索返回结果过多,如何有效组织这些结果对搜索引擎来说是一个巨大挑战。目前大多数搜索引擎对于用户查询,仅仅通过关键词匹配、排序,输出一个长且无层次的列表,然而这个列表往往达不到预期目标,因为用户往往需要翻阅多页才能找到期望的结果,尤其是对于多义词查询。如果能将这些检索结果根据相应的语义分类别组织在一起,将能更好的帮助用户导航浏览,提高用户的浏览效率。与传统的基于词频和统计的检索结果聚类方法不同,本文提出了一种基于维基百科知识的聚类算法,实现了对检索结果的在线高效准确聚类。该算法利用从目前最大的在线知识库—维基百科中挖掘出的词语间语义关系,聚类后形成更为紧凑的簇、描述性更强的簇标签以及层次结构更合理的树型结构。本文首先描述了一种全新的维基知识的挖掘方法。通过分析维基百科的组织结构尤其是超链接关系,结合机器学习方法、启发式规则和概率统计方法,抽象出一个覆盖面全、准确率高的维基辞典,并提出了短语间语义相似度、短语导向性等指标。该知识库在关键词抽取和文本分类上的简单应用也取得了非常显著的效果。其次,重点介绍了基于维基百科的搜索引擎检索结果聚类的基本思想,突出阐述了特征项的抽取方法和基类合并规则。在特征项抽取过程中,在短语层次上采用全二分最大长度匹配快速识别主要词汇,对同义词进行归并,对多义词根据上下文语境和语义信息的线性融合进行歧义消解。采用倒排索引的方式组织基簇,在基簇的基础上,根据簇文档之间的重叠程度、簇标签之间的上下位关系和语义相关度,采用自底向上的层次聚类算法将标签组织为层次型标签树。最后,实现了在线聚类系统Wiki-SRC,并将它与其他相关研究成果进行了比较。通过对比实验,我们发现Wiki-SRC在簇标签质量、簇覆盖率等方面都有所改进,从而证明了该算法的可行性和有效性。

论文目录

摘要

ABSTRACT

第一章引言

1.1 研究背景及意义

1.2 研究内容及目标

1.3 论文组织结构

第二章相关背景知识

2.1 搜索引擎

2.1.1 搜索引擎分类

2.1.2 搜索引擎的工作原理

2.1.3 搜索结果表示方法

2.2 向量空间模型

2.3 聚类算法

2.3.1 基于距离的聚类算法

2.3.2 后缀树聚类算法（Suffix Tree Clustering）

2.4 相关研究

2.5 小结

第三章维基百科语义知识库

3.1 维基百科简介

3.2 语义关系的抽取

3.2.1 维基百科特征分析

3.2.2 维基辞典的构建

3.2.3 语义相关度的计算

3.2.4 其他重要指标

3.3 应用

3.3.1 关键词提取

3.3.2 文本分类

3.4 小结

第四章 Wiki-SRC 系统的设计算法描述

4.1 概述

4.2 算法描述

4.2.1 数据的获取

4.2.2 关键短语的提取

4.2.3 基类的确定

4.2.4 类层次结构的生成

4.2.5 类的处理与最后形成

4.3 小结

第五章 Wiki-SRC 系统实现与评测.

5.1 系统实现

5.1.1 系统实现框架

5.1.2 系统截图

5.2 实验数据

5.2.1 维基百科数据

5.2.2 测试数据集

5.3 系统结果与分析

5.3.1 搜索结果聚类评价方法.

5.3.2 Wiki-SRC 与STC 以及Vivisimo 对比实验

5.3.3 参数调节

5.3.4 时间复杂度

5.4 小结

第六章总结与展望

6.1 总结

6.2 未来展望

参考文献

致谢

攻读学位期间发表的学术论文

上海交通大学学位论文答辩决议书

基于维基百科的搜索引擎检索结果聚类

论文摘要

论文目录

相关论文文献

猜你喜欢