支持多语言标签优先的元搜索引擎结果聚类研究

支持多语言标签优先的元搜索引擎结果聚类研究

论文摘要

随着互联网规模的爆炸式增长,作为信息检索工具的搜索引擎得到了广泛的研究和应用。据研究单个搜索引擎能找到的相关信息通常不超过互联网上所有相关信息的45%。另外,虽然现有的搜索引擎采用了多种技术来提高信息检索的准确度,但以线性列表形式展现搜索结果的方法,使查询相关文档和不相关文档相互混合,给用户定位真正需要的信息带来了极大的负担。论文研究了如何构建一个的高性能的分布式的个性化元搜索引擎,并在此基础上对搜索结果进行聚类以便减少用户定位信息的时间。通过将各个搜索引擎的结果进行合成,我们可以为用户提供更加全面的信息。通过聚类,把搜索结果组织成树状层次结构,使得同一类别中的数据相关性尽可能高,不同类别间的数据的相关性尽可能低。在聚类过程中,我们基于全局数据优先生成聚类的标签名,从而使得类标签对用户可读性更好,缩小用户定位信息的范围提高检索的命中率,从而缩短用户定位数据的时间。实验数据表明,本文算法生成的类标签可读性优于其他算法,而且搜索结果从数量和准确性方面都优于其他算法。与其他搜索结果聚类不同,本文提出了一种支持多语言标签优先的聚类算法,我们将其称之为DCFC算法。该算法支持中文和英文,并且重点关注生成类标签对人的可读性,类别以层次结构展现。系统提供了一些参数来让用户控调整系统的运行结果:用户可以通过标签的长度,搜索结果中含有的数据条数等对搜索结果进行调整。DCFC算法主要有五个步骤:数据预处理、分词、频繁短语的生成、多层的类标签的生成、将数据归到相应的类下。我们通过JAVA实现了该元搜索引擎搜索结果聚类系统,该系统主要包括两大部分:一部分是高性能的分布式的个性化元搜索引擎,另一部分是DCFC聚类。通过比较DCFC聚类与其他搜索引擎聚类算法,主要有LINGO、VIVISIMO、QUINTURA,实验结果表明DCFC算法是有效的。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 引言
  • 1.1 论文研究背景
  • 1.1.1 背景
  • 1.1.2 国内外研究现状
  • 1.2 研究内容和研究目标
  • 1.2.1 研究主要内容
  • 1.2.2 研究目标
  • 1.3 论文的组织结构
  • 1.4 本章小结
  • 第二章 元搜索引擎及文本挖掘的相关研究
  • 2.1 信息检索与搜索引擎
  • 2.1.1 信息检索与搜索引擎
  • 2.1.2 搜索引擎的类别
  • 2.1.3 搜索引擎的工作原理
  • 2.2 元搜索引擎
  • 2.2.1 元搜索引擎的特点及工作过程
  • 2.2.2 元搜索引擎的结构
  • 2.2.3 元搜索引擎的结果合成及排序
  • 2.3 web挖掘
  • 2.3.1 数据挖掘简介
  • 2.3.2 WEB挖掘
  • 2.4 文本聚类相关研究
  • 2.4.1 聚类算法
  • 2.4.2 文本聚类
  • 2.4.3 向量空间模型
  • 2.4.4 隐藏语义索引
  • 2.5 本章小结
  • 第三章 个性化分布式的元搜索引擎设计
  • 3.1 个性化的元搜索引擎架构设计
  • 3.2 个性化的元搜索引擎实现
  • 3.3 本章小结
  • 第四章 多层的标签优先的文本聚类算法
  • 4.1 概述
  • 4.2 多层的标签优先的文本聚类算法DCFC
  • 4.2.1 数据预处理
  • 4.2.2 分词
  • 4.2.3 频繁短语的生成
  • 4.2.4 多层的类标签的生成
  • 4.2.5 将数据归到相应的类下
  • 4.3 本章小结
  • 第五章 系统设计与实现
  • 5.1 系统架构
  • 5.1.1 开发环境
  • 5.1.2 系统架构
  • 5.1.3 系统工作过程说明
  • 5.2 系统实现
  • 5.2.1 源搜索引擎数据获取部分实现
  • 5.2.2 抽取部分实现
  • 5.2.3 分词部分实现
  • 5.2.4 聚类部分实现
  • 5.3 系统测评
  • 5.3.1 系统运行效果
  • 5.3.2 聚类结果的评价策略
  • 5.3.3 相关研究比较
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 论文展望
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    支持多语言标签优先的元搜索引擎结果聚类研究
    下载Doc文档

    猜你喜欢