网页去噪音与分类算法研究

论文摘要

随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页进行分类。本文研究网页分类的关键技术,并对网页去噪音技术和分类算法进行深入探讨。在网页预处理时,最关键的问题是去除掉网页中的噪音数据,将与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息。我们在分析现有方法和网页制作特点的基础上,综合考率网页的结构、分块大小信息,设计并实现了一个基于块分析的、自动调整阈值的网页去噪音算法。特征聚合算法考虑到词与词之间的联系,根据特征词的分类贡献将他们聚合为分布模式,并使用分布模式代替传统算法中单个词对应向量一维的方式,我们对特征聚合算法在本文分类系统的效果进行了测试,测试结果显示特征聚合算法对数据集偏斜问题有着很好的效果,并对分类器整体性能有所改进。当前文本分类领域已经提出了很多分类算法,其中,KNN和SVM被认为是具有较好效果的两种,我们提出SVM-KNN算法,通过将KNN和SVM两种分类器进行结合,并通过分类预测概率的反馈和修正来提高分类器性能。最后,在我们实现的中文网页分类实验系统中,我们对基于块的网页去噪音算法和SVM-KNN算法的实际效果进行了测试,实验结果证明了算法的有效性。

论文目录

摘要

ABSTRACT

第一章引言

1.1 论文背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文组织

第二章中文文本分类技术

2.1 文本分类概念

2.1.1 文本分类的定义

2.1.2 文本分类的过程

2.2 文本表示模型

2.2.1 布尔模型

2.2.2 向量空间模型

2.2.3 潜在语义索引模型

2.3 文本预处理

2.4 特征选择

2.4.1 文档频度（DF）

2.4.2 信息增益（IG）

2.4.3 互信息（MI）

2 统计（CHI）'>2.4.4 χ²统计（CHI）

2.4.5 期望交叉熵（CE）

2.5 特征抽取

2.5.1 隐含语义索引方法（LSI）

2.5.2 词汇聚类方法（TC）

2.5.3 主成分分析法（PCA）

2.6 文本分类算法

2.6.1 简单向量距离分类法

2.6.2 决策树算法

2.6.3 朴素贝叶斯算法

2.6.4 神经网络算法

2.6.5 K 近邻算法

2.6.6 支持向量机算法

2.7 文本分类算法评估指标

2.8 本文原始实验系统

第三章基于块分析的网页去噪音算法

3.1 HTML 简介

3.2 文档对象模型（DOM）

3.3 网页噪音定义

3.4 网页去噪音算法相关研究

3.5 基于块分析的网页去噪音算法描述

3.5.1 算法依据

3.5.2 算法思想

3.5.3 算法描述

3.6 网页去噪音算法实验

3.6.1 单个网页去噪音实验

3.6.2 去噪音算法对网页分类器的作用实验

第四章特征聚合算法

4.1 算法基础

4.2 算法步骤

4.3 算法描述

4.4 算法实验与分析

第五章 SVM-KNN 分类算法

5.1 K 近邻算法（KNN）

5.1.1 KNN 决策规则

5.1.2 相似度计算方法

5.1.3 K 值的选取

5.1.4 KNN 优缺点

5.2 支持向量机算法（SVM）

5.2.1 SVM 原理

5.2.2 核函数

5.2.3 多分类SVM 算法

5.2.4 SVM 优缺点

5.3 SVM-KNN 分类算法基础

5.4 SVM-KNN 分类算法步骤

5.5 SVM-KNN 分类算法实验

5.5.1 KNN 分类器决策规则选择

5.5.2 KNN 分类算法实验结果

5.5.3 SVM 分类算法实验结果

5.5.4 SVM-KNN 分类算法实验结果

5.5.5 KNN、SVM、SVM-KNN 分类算法比较

第六章总结与展望

6.1 总结

6.2 进一步工作

参考文献

致谢

网页去噪音与分类算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢