论文摘要
随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前人们从Web上获取信息的主要工具,但是搜索引擎如Google、百度、雅虎等,返回的搜索结果缺乏清晰的结构,往往返回一个很长的、混杂相关信息和无关信息的搜索结果列表,用户不得不对列表中的结果逐个进行验证以得到所需信息,这给用户搜索到自己真正需要的信息制造了困难。因此,如何让用户更加准确而快捷地通过搜索引擎找到所需信息,成为一个非常重要而值得研究的课题。数据挖掘技术的出现,为解决此问题提供了新的思路。数据挖掘旨在抽取数据中隐含的、未知的、有用的、非一般的模式或知识。聚类作为数据挖掘的基本方法之一,通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。使用聚类技术对搜索结果进行处理,以更合理的方式将搜索结果返回给用户,使得用户能够方便地得到自己所需的信息。本文在对Web搜索引擎以及数据挖掘技术进行研究的基础上,针对该需求,提出一个在中文语言环境下、能够对搜索结果进行聚类处理的搜索结果聚类模型,并对其关键模块进行了实现。这一模型的主要思想是以Web搜索引擎返回的搜索结果作为输入数据,首先找到具有良好描述性、可读性的聚类标签,然后将相关的搜索结果分配到各个聚类标签下,经过后处理将搜索结果按照聚类类别的方式返回给用户,使用户能够更加便捷地找到所需的信息。在对该模型的设计中,我们在参考了两个经典的搜索结果聚类算法——SHOC和LINGO的基础上,充分考虑了中文语言相对于英文语言的特性、对原本针对英文的算法进行修改和调整,从而使得我们的模型能够在中文语言下得到更好的效果。
论文目录
摘要Abstract第1章 研究背景1.1 问题的提出1.2 研究内容与目标1.3 论文结构第2章 Web搜索引擎技术分析2.1 Web搜索引擎分类2.1.1 按照系统结构和技术实现2.1.2 按照应用领域2.1.3 其他分类2.2 Web搜索引擎架构及其工作原理2.2.1 网络爬虫2.2.2 索引器2.2.3 查询器2.2.4 用户接口2.3 Web搜索引擎搜索结果分析2.3.1 搜索结果表示2.3.2 搜索结果摘要生成方式2.3.3 搜索结果排序2.4 元搜索引擎2.4.1 元搜索引擎的意义2.4.2 元搜索引擎的分类2.4.3 元搜索引擎的体系结构2.4.4 元搜索引擎的重排序2.4.5 在搜索结果聚类系统中的应用2.5 本章小结第3章 聚类技术分析3.1 聚类的概念3.2 聚类算法介绍3.2.1 划分方法3.2.2 层次方法3.2.3 基于密度的方法3.2.4 基于网格的方法3.2.5 基于模型的方法3.3 文本聚类3.3.1 文本聚类的概念3.3.2 搜索结果聚类与文本聚类3.3.3 预处理技术3.3.4 向量空间模型3.3.5 潜在语义标引3.3.6 特征抽取3.4 现有的搜索结果聚类系统介绍3.4.1 Scatter/Gather3.4.2 Grouper与Carrot3.4.3 AHC3.4.4 SHOC与LINGO3.4.5 基于学习的搜索结果聚类3.4.6 Vivisimo和比比猫3.5 本章小结第4章 搜索结果聚类系统设计4.1 系统模型的主体设计思想4.2 系统模型架构图4.3 系统流程4.3.1 搜索结果获取模块4.3.2 预处理模块4.3.3 特征抽取模块4.3.4 聚类标签生成模块4.3.5 聚类内容生成模块4.3.6 聚类结果显示模块4.4 系统阈值说明4.5 本章小结第5章 关键模块的实现与评价5.1 实现模块说明5.2 关键模块实现5.2.1 实现环境说明5.2.2 程序流程图5.2.3 程序结构说明5.3 实验与评价5.3.1 实验说明5.3.2 实验数据5.3.3 特征抽取模块5.3.4 聚类标签生成模块5.4 本章小结第6章 结束语6.1 论文总结6.2 下一步工作致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:聚类算法论文; 搜索引擎论文; 搜索结果论文; 后缀数组论文; 潜在语义标引论文;