论文摘要
搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略的执行效果受到了很大的影响。为使搜索引擎在检索互联网信息时能够准确定位,并且提高检索到的信息与目标之间的关联度,网页自动分类技术被用来辅助搜索引擎检索网络信息,以优化搜索引擎的检索效果。网页自动分类技术,是在文本自动分类技术的基础上发展起来的,网页自动分类系统本质上是由自然语言处理技术和机器学习原理相结合实现的系统,而分类器是网页自动分类系统的核心部分。本文介绍了几种当前较为成熟且流行的分类算法,通过对比其各自的优缺点,考虑到实际网络中的取样情况,从中选定K-最近邻算法构造分类器,并用此分类器判定指定映射的未知文本的类别。本文在研究了中文网页的结构和特点的基础上,设计完成此分类系统,并在本文中逐一说明了构建此系统的流程步骤,本文重点研究了构成此分类系统的几个重要部分即文本预处理、主题特征抽取、建立特征库、类别测度,并在真实的网络环境下进行了实验。在系统的具体实现上采用了与搜索引擎相结合的方式,从搜索引擎抓取的页面内容中抽取特征,并建立特征库,进行类别测度。最后根据当下普遍采用的检测指标衡量此系统的分类器分类准确率。本文最后有针对性的对一些网站做了实验,并提供一系列的实验数据、评估参数来证明这个系统的有效性、可行性,阐明了该自动分类技术可以用于优化搜索引擎检索网络信息的准确度和相关性。