权威Web信息在搜索优化中的应用研究

论文摘要

搜索引擎（Search engine）是指自动从Internet上搜集信息，经过一定整理以后，提供给用户进行查询的系统。它的出现给用户带来了极大的便利。但随着Internet的进一步发展，传统的搜索引擎暴露出不足之处：用户搜索出来的结果页面过多而用户真正关心的内容少，用户需要耗费极大时间寻找自己所关心的内容。基于上述问题，本文对搜索引擎及其相关技术展开研究。本文结合web文本挖掘、元搜索及其他相关技术，提出了一种基于web文本聚类的元搜索系统。系统分为两大功能模块：元搜索模块和文本聚类模块。本系统中，在用户输入关键字进行检索后，系统中的元搜索模块将调用其他全文搜索引擎进行搜索，并按照一定评分原则，去除那些与用户无关的搜索结果，并把处理后的最终结果交给文本聚类模块进行处理。在文本聚类模块中，我们首先对搜索到的web页面进行预处理，然后运用文本聚类算法对页面进行分类，生成不同的聚簇为用户的搜索提出指导性帮助。在本系统中文本聚类算法是核心。我们发现K-means算法运行速度快，时间复杂度低，而且适合在大型数据集上运行。但我们也发现，在K-means算法中不同的初始点会产生不同聚类效果。因此我们结合权威web页面的特性，选择权威web页面作为初始点进行聚类，并且很好地达到了聚类效果。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 本文研究背景

1.2 国内外研究现状

1.3 研究意义

1.4 本文所作的工作

第2章搜索引擎及其相关技术介绍

2.1 搜索引擎概述

2.1.1 搜索引擎的工作原理

2.1.2 搜索引擎分类

2.1.3 搜索引擎发展历史

2.2 元搜索概述

2.3 权威web页面定义及特性

2.4 本章小结

第3章 web文本聚类相关技术

3.1 web文本特点

3.1.1 超文本的结构性特点

3.1.2 超文本的组成

3.2 文本表示

3.2.1 布尔逻辑模型

3.2.2 向量模型空间

3.2.3 概率模型空间

3.2.4 各模型之间比较

3.3 权重计算方法

3.4 分词

3.4.1 基于词库的分词方法

3.4.2 基于统计的分词方法

3.4.3 基于理解的切分方法

3.5 特征提取方法

3.5.1 特征频度

3.5.2 文本频度

3.5.3 特征熵

3.5.4 信息增益

2统计法'>3.5.5 x²统计法

3.5.6 互信息量

3.5.7 词条CHI统计法

3.5.8 各特征方法之间比较

3.6 本章小节

第4章 web文本聚类算法的研究

4.1 聚类概述

4.2 聚类算法的要求

4.2.1 可伸缩性

4.2.2 处理不同类型属性的能力

4.2.3 能发现任意形状的聚类

4.2.4 使决定输入参数的领域知识最小化

4.2.5 能够有效地处理噪声数据

4.2.6 对于输入纪录的顺序不敏感

4.2.7 高维性

4.2.8 基于约束的聚类

4.2.9 可解释性和可用性

4.3 主要的聚类方法

4.3.1 划分方法

4.3.2 层次方法

4.3.3 基于密度的方法

4.3.4 基于模型的方法

4.3.5 基于网格的方法

4.4 常用的聚类分析方法

4.4.1 K-means算法概述

4.4.2 层次聚类算法

4.4.3 动态聚类算法

4.4.4 各算法之间比较

4.5 本章小结

第5章基于web文本聚类的元搜索引擎的设计与实现

5.1 基于文本聚类的中文元搜索引擎的系统结构

5.2 基于文本聚类的中文元搜索引擎的设计

5.2.1 元搜索模块的设计

5.2.2 网页分析模块的设计

5.3 原型系统的实现与评测

5.3.1 系统平台与开发工具

5.3.2 系统评测

5.4 本章小结

第6章结论与未来发展

6.1 创新点

6.2 有待解决的问题及未来工作

致谢

参考文献

攻读学位期间的研究成果

权威Web信息在搜索优化中的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢