论文摘要
随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页进行分类。本文研究网页分类的关键技术,并对网页去噪音技术和分类算法进行深入探讨。在网页预处理时,最关键的问题是去除掉网页中的噪音数据,将与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息。我们在分析现有方法和网页制作特点的基础上,综合考率网页的结构、分块大小信息,设计并实现了一个基于块分析的、自动调整阈值的网页去噪音算法。特征聚合算法考虑到词与词之间的联系,根据特征词的分类贡献将他们聚合为分布模式,并使用分布模式代替传统算法中单个词对应向量一维的方式,我们对特征聚合算法在本文分类系统的效果进行了测试,测试结果显示特征聚合算法对数据集偏斜问题有着很好的效果,并对分类器整体性能有所改进。当前文本分类领域已经提出了很多分类算法,其中,KNN和SVM被认为是具有较好效果的两种,我们提出SVM-KNN算法,通过将KNN和SVM两种分类器进行结合,并通过分类预测概率的反馈和修正来提高分类器性能。最后,在我们实现的中文网页分类实验系统中,我们对基于块的网页去噪音算法和SVM-KNN算法的实际效果进行了测试,实验结果证明了算法的有效性。
论文目录
摘要ABSTRACT第一章 引言1.1 论文背景及意义1.2 国内外研究现状1.3 本文主要工作1.4 本文组织第二章 中文文本分类技术2.1 文本分类概念2.1.1 文本分类的定义2.1.2 文本分类的过程2.2 文本表示模型2.2.1 布尔模型2.2.2 向量空间模型2.2.3 潜在语义索引模型2.3 文本预处理2.4 特征选择2.4.1 文档频度(DF)2.4.2 信息增益(IG)2.4.3 互信息(MI)2 统计(CHI)'>2.4.4 χ2统计(CHI)2.4.5 期望交叉熵(CE)2.5 特征抽取2.5.1 隐含语义索引方法(LSI)2.5.2 词汇聚类方法(TC)2.5.3 主成分分析法(PCA)2.6 文本分类算法2.6.1 简单向量距离分类法2.6.2 决策树算法2.6.3 朴素贝叶斯算法2.6.4 神经网络算法2.6.5 K 近邻算法2.6.6 支持向量机算法2.7 文本分类算法评估指标2.8 本文原始实验系统第三章 基于块分析的网页去噪音算法3.1 HTML 简介3.2 文档对象模型(DOM)3.3 网页噪音定义3.4 网页去噪音算法相关研究3.5 基于块分析的网页去噪音算法描述3.5.1 算法依据3.5.2 算法思想3.5.3 算法描述3.6 网页去噪音算法实验3.6.1 单个网页去噪音实验3.6.2 去噪音算法对网页分类器的作用实验第四章 特征聚合算法4.1 算法基础4.2 算法步骤4.3 算法描述4.4 算法实验与分析第五章 SVM-KNN 分类算法5.1 K 近邻算法(KNN)5.1.1 KNN 决策规则5.1.2 相似度计算方法5.1.3 K 值的选取5.1.4 KNN 优缺点5.2 支持向量机算法(SVM)5.2.1 SVM 原理5.2.2 核函数5.2.3 多分类SVM 算法5.2.4 SVM 优缺点5.3 SVM-KNN 分类算法基础5.4 SVM-KNN 分类算法步骤5.5 SVM-KNN 分类算法实验5.5.1 KNN 分类器决策规则选择5.5.2 KNN 分类算法实验结果5.5.3 SVM 分类算法实验结果5.5.4 SVM-KNN 分类算法实验结果5.5.5 KNN、SVM、SVM-KNN 分类算法比较第六章 总结与展望6.1 总结6.2 进一步工作参考文献致谢
相关论文文献
标签:网页分类论文; 网页噪音论文; 去噪论文; 特征聚合论文;