网页去噪音与分类算法研究

网页去噪音与分类算法研究

论文摘要

随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页进行分类。本文研究网页分类的关键技术,并对网页去噪音技术和分类算法进行深入探讨。在网页预处理时,最关键的问题是去除掉网页中的噪音数据,将与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息。我们在分析现有方法和网页制作特点的基础上,综合考率网页的结构、分块大小信息,设计并实现了一个基于块分析的、自动调整阈值的网页去噪音算法。特征聚合算法考虑到词与词之间的联系,根据特征词的分类贡献将他们聚合为分布模式,并使用分布模式代替传统算法中单个词对应向量一维的方式,我们对特征聚合算法在本文分类系统的效果进行了测试,测试结果显示特征聚合算法对数据集偏斜问题有着很好的效果,并对分类器整体性能有所改进。当前文本分类领域已经提出了很多分类算法,其中,KNN和SVM被认为是具有较好效果的两种,我们提出SVM-KNN算法,通过将KNN和SVM两种分类器进行结合,并通过分类预测概率的反馈和修正来提高分类器性能。最后,在我们实现的中文网页分类实验系统中,我们对基于块的网页去噪音算法和SVM-KNN算法的实际效果进行了测试,实验结果证明了算法的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 论文背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 本文组织
  • 第二章 中文文本分类技术
  • 2.1 文本分类概念
  • 2.1.1 文本分类的定义
  • 2.1.2 文本分类的过程
  • 2.2 文本表示模型
  • 2.2.1 布尔模型
  • 2.2.2 向量空间模型
  • 2.2.3 潜在语义索引模型
  • 2.3 文本预处理
  • 2.4 特征选择
  • 2.4.1 文档频度(DF)
  • 2.4.2 信息增益(IG)
  • 2.4.3 互信息(MI)
  • 2 统计(CHI)'>2.4.4 χ2统计(CHI)
  • 2.4.5 期望交叉熵(CE)
  • 2.5 特征抽取
  • 2.5.1 隐含语义索引方法(LSI)
  • 2.5.2 词汇聚类方法(TC)
  • 2.5.3 主成分分析法(PCA)
  • 2.6 文本分类算法
  • 2.6.1 简单向量距离分类法
  • 2.6.2 决策树算法
  • 2.6.3 朴素贝叶斯算法
  • 2.6.4 神经网络算法
  • 2.6.5 K 近邻算法
  • 2.6.6 支持向量机算法
  • 2.7 文本分类算法评估指标
  • 2.8 本文原始实验系统
  • 第三章 基于块分析的网页去噪音算法
  • 3.1 HTML 简介
  • 3.2 文档对象模型(DOM)
  • 3.3 网页噪音定义
  • 3.4 网页去噪音算法相关研究
  • 3.5 基于块分析的网页去噪音算法描述
  • 3.5.1 算法依据
  • 3.5.2 算法思想
  • 3.5.3 算法描述
  • 3.6 网页去噪音算法实验
  • 3.6.1 单个网页去噪音实验
  • 3.6.2 去噪音算法对网页分类器的作用实验
  • 第四章 特征聚合算法
  • 4.1 算法基础
  • 4.2 算法步骤
  • 4.3 算法描述
  • 4.4 算法实验与分析
  • 第五章 SVM-KNN 分类算法
  • 5.1 K 近邻算法(KNN)
  • 5.1.1 KNN 决策规则
  • 5.1.2 相似度计算方法
  • 5.1.3 K 值的选取
  • 5.1.4 KNN 优缺点
  • 5.2 支持向量机算法(SVM)
  • 5.2.1 SVM 原理
  • 5.2.2 核函数
  • 5.2.3 多分类SVM 算法
  • 5.2.4 SVM 优缺点
  • 5.3 SVM-KNN 分类算法基础
  • 5.4 SVM-KNN 分类算法步骤
  • 5.5 SVM-KNN 分类算法实验
  • 5.5.1 KNN 分类器决策规则选择
  • 5.5.2 KNN 分类算法实验结果
  • 5.5.3 SVM 分类算法实验结果
  • 5.5.4 SVM-KNN 分类算法实验结果
  • 5.5.5 KNN、SVM、SVM-KNN 分类算法比较
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 进一步工作
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    网页去噪音与分类算法研究
    下载Doc文档

    猜你喜欢