Web搜索引擎的搜索结果聚类研究

Web搜索引擎的搜索结果聚类研究

论文摘要

随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前人们从Web上获取信息的主要工具,但是搜索引擎如Google、百度、雅虎等,返回的搜索结果缺乏清晰的结构,往往返回一个很长的、混杂相关信息和无关信息的搜索结果列表,用户不得不对列表中的结果逐个进行验证以得到所需信息,这给用户搜索到自己真正需要的信息制造了困难。因此,如何让用户更加准确而快捷地通过搜索引擎找到所需信息,成为一个非常重要而值得研究的课题。数据挖掘技术的出现,为解决此问题提供了新的思路。数据挖掘旨在抽取数据中隐含的、未知的、有用的、非一般的模式或知识。聚类作为数据挖掘的基本方法之一,通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。使用聚类技术对搜索结果进行处理,以更合理的方式将搜索结果返回给用户,使得用户能够方便地得到自己所需的信息。本文在对Web搜索引擎以及数据挖掘技术进行研究的基础上,针对该需求,提出一个在中文语言环境下、能够对搜索结果进行聚类处理的搜索结果聚类模型,并对其关键模块进行了实现。这一模型的主要思想是以Web搜索引擎返回的搜索结果作为输入数据,首先找到具有良好描述性、可读性的聚类标签,然后将相关的搜索结果分配到各个聚类标签下,经过后处理将搜索结果按照聚类类别的方式返回给用户,使用户能够更加便捷地找到所需的信息。在对该模型的设计中,我们在参考了两个经典的搜索结果聚类算法——SHOC和LINGO的基础上,充分考虑了中文语言相对于英文语言的特性、对原本针对英文的算法进行修改和调整,从而使得我们的模型能够在中文语言下得到更好的效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 研究背景
  • 1.1 问题的提出
  • 1.2 研究内容与目标
  • 1.3 论文结构
  • 第2章 Web搜索引擎技术分析
  • 2.1 Web搜索引擎分类
  • 2.1.1 按照系统结构和技术实现
  • 2.1.2 按照应用领域
  • 2.1.3 其他分类
  • 2.2 Web搜索引擎架构及其工作原理
  • 2.2.1 网络爬虫
  • 2.2.2 索引器
  • 2.2.3 查询器
  • 2.2.4 用户接口
  • 2.3 Web搜索引擎搜索结果分析
  • 2.3.1 搜索结果表示
  • 2.3.2 搜索结果摘要生成方式
  • 2.3.3 搜索结果排序
  • 2.4 元搜索引擎
  • 2.4.1 元搜索引擎的意义
  • 2.4.2 元搜索引擎的分类
  • 2.4.3 元搜索引擎的体系结构
  • 2.4.4 元搜索引擎的重排序
  • 2.4.5 在搜索结果聚类系统中的应用
  • 2.5 本章小结
  • 第3章 聚类技术分析
  • 3.1 聚类的概念
  • 3.2 聚类算法介绍
  • 3.2.1 划分方法
  • 3.2.2 层次方法
  • 3.2.3 基于密度的方法
  • 3.2.4 基于网格的方法
  • 3.2.5 基于模型的方法
  • 3.3 文本聚类
  • 3.3.1 文本聚类的概念
  • 3.3.2 搜索结果聚类与文本聚类
  • 3.3.3 预处理技术
  • 3.3.4 向量空间模型
  • 3.3.5 潜在语义标引
  • 3.3.6 特征抽取
  • 3.4 现有的搜索结果聚类系统介绍
  • 3.4.1 Scatter/Gather
  • 3.4.2 Grouper与Carrot
  • 3.4.3 AHC
  • 3.4.4 SHOC与LINGO
  • 3.4.5 基于学习的搜索结果聚类
  • 3.4.6 Vivisimo和比比猫
  • 3.5 本章小结
  • 第4章 搜索结果聚类系统设计
  • 4.1 系统模型的主体设计思想
  • 4.2 系统模型架构图
  • 4.3 系统流程
  • 4.3.1 搜索结果获取模块
  • 4.3.2 预处理模块
  • 4.3.3 特征抽取模块
  • 4.3.4 聚类标签生成模块
  • 4.3.5 聚类内容生成模块
  • 4.3.6 聚类结果显示模块
  • 4.4 系统阈值说明
  • 4.5 本章小结
  • 第5章 关键模块的实现与评价
  • 5.1 实现模块说明
  • 5.2 关键模块实现
  • 5.2.1 实现环境说明
  • 5.2.2 程序流程图
  • 5.2.3 程序结构说明
  • 5.3 实验与评价
  • 5.3.1 实验说明
  • 5.3.2 实验数据
  • 5.3.3 特征抽取模块
  • 5.3.4 聚类标签生成模块
  • 5.4 本章小结
  • 第6章 结束语
  • 6.1 论文总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    Web搜索引擎的搜索结果聚类研究
    下载Doc文档

    猜你喜欢