论文摘要
随着互联网规模的爆炸式增长,作为信息检索工具的搜索引擎得到了广泛的研究和应用。据研究单个搜索引擎能找到的相关信息通常不超过互联网上所有相关信息的45%。另外,虽然现有的搜索引擎采用了多种技术来提高信息检索的准确度,但以线性列表形式展现搜索结果的方法,使查询相关文档和不相关文档相互混合,给用户定位真正需要的信息带来了极大的负担。论文研究了如何构建一个的高性能的分布式的个性化元搜索引擎,并在此基础上对搜索结果进行聚类以便减少用户定位信息的时间。通过将各个搜索引擎的结果进行合成,我们可以为用户提供更加全面的信息。通过聚类,把搜索结果组织成树状层次结构,使得同一类别中的数据相关性尽可能高,不同类别间的数据的相关性尽可能低。在聚类过程中,我们基于全局数据优先生成聚类的标签名,从而使得类标签对用户可读性更好,缩小用户定位信息的范围提高检索的命中率,从而缩短用户定位数据的时间。实验数据表明,本文算法生成的类标签可读性优于其他算法,而且搜索结果从数量和准确性方面都优于其他算法。与其他搜索结果聚类不同,本文提出了一种支持多语言标签优先的聚类算法,我们将其称之为DCFC算法。该算法支持中文和英文,并且重点关注生成类标签对人的可读性,类别以层次结构展现。系统提供了一些参数来让用户控调整系统的运行结果:用户可以通过标签的长度,搜索结果中含有的数据条数等对搜索结果进行调整。DCFC算法主要有五个步骤:数据预处理、分词、频繁短语的生成、多层的类标签的生成、将数据归到相应的类下。我们通过JAVA实现了该元搜索引擎搜索结果聚类系统,该系统主要包括两大部分:一部分是高性能的分布式的个性化元搜索引擎,另一部分是DCFC聚类。通过比较DCFC聚类与其他搜索引擎聚类算法,主要有LINGO、VIVISIMO、QUINTURA,实验结果表明DCFC算法是有效的。