中文网页分类技术的研究与实现

中文网页分类技术的研究与实现

论文摘要

随着网络和信息技术的迅速发展,特别是Internet的普及,网络信息资源已极为丰富。文本分类将杂乱无章的信息整合起来,方便用户快捷地定位感兴趣的信息,是目前研究的重要课题。本文对中文网页分类的主要技术,包括预处理、特征提取、分类算法等方面进行了深入的分析和研究。首先,针对网页表达形式的特点,将网页噪声分成局部噪声和全局噪声两类,分别给出了两种噪声的去噪方法,并实现了一种基于HTMLParser的网页预处理过程。其次,针对中文网页的特性,对中文分词做了深入的分析,实现了一种基于词典的分词系统,该系统将分词词典按照相同的第一个字分成不同的小词典,在各个小词典内部,利用二分查找方法,有效的提高了分词速度。第三,TFIDF特征选取和文本表示没有考虑特征项在各类之间和各个类的内部的分布情况对类的区分度的影响,针对这一缺点,本文采用一种在TFIDF基础上增加两个方差来调节TFIDF权重的改进方案。最后,比较了几种传统的文本分类算法的优劣,总结了现有的几种改进方案,并给出了一个基于中心向量的距离加权kNN分类的改进方法。该方法先根据中心向量淘汰离类的中心较远的样本,减小这些样本对类中心的影响,然后考虑到类中心距离不同的样本对类的作用不同,在计算属于各个类的文本的余弦值时增加一个权值。实验表明该方法比kNN法效果更好。经实验表明,本文所做研究的内容,有利于分类器的性能的改进,达到了一定的预期效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 前言
  • 1.1 课题研究的背景与意义
  • 1.2 国内外研究现状
  • 1.2.1 文本分类在国际上的发展
  • 1.2.2 文本分类在国内的发展
  • 1.3 本文的研究内容
  • 1.4 本文的组织
  • 第2章 中文网页分类概述
  • 2.1 中文网页自动分类的定义
  • 2.1.1 文本分类的定义
  • 2.1.2 中文网页分类的定义和特点
  • 2.2 中文网页自动分类的过程
  • 2.3 中文网页分类的关键
  • 2.3.1 网页预处理
  • 2.3.2 特征提取
  • 2.3.3 分类算法
  • 2.3.4 性能评估
  • 第3章 网页预处理技术及中文分词的实现
  • 3.1 网页预处理概述
  • 3.2 局部噪声处理
  • 3.2.1 HTMLParser简介
  • 3.2.2 基于HTMLParser预处理算法
  • 3.3 全局噪声处理
  • 3.3.1 近似镜像网页检测方法
  • 3.3.2 近似镜像网页的检测算法
  • 3.4 中文分词的实现
  • 3.4.1 中文分词的主要问题
  • 3.4.2 中文分词的方法
  • 3.4.3 几种已有中文分词系统
  • 3.4.4 中文分词的实现
  • 第4章 特征提取及TFIDF的改进
  • 4.1 特征提取和表示
  • 4.1.1 特征提取
  • 4.1.2 特征表示
  • 4.2 TFIDF的改进
  • 4.2.1 TFIDF简介
  • 4.2.2 TFIDF的不足
  • 4.2.3 TFIDF的改进
  • 第5章 分类算法比较及改进方法
  • 5.1 几种传统的分类算法
  • 5.1.1 简单向量距离分类法
  • 5.1.2 朴素贝叶斯分类法(NB)
  • 5.1.3 K近邻分类法(kNN)
  • 5.1.4 支持向量机分类法(SVM)
  • 5.2 几种分类算法比较和改进方法
  • 5.2.1 几种分类算法比较
  • 5.2.2 几种已有分类算法改进方案
  • 5.3 基于中心向量法的距离加权kNN分类算法
  • 5.3.1 凸包及样本的近似均匀性验证
  • 5.3.2 基于中心向量的距离加权kNN算法
  • 第6章 中文网页分类实现及分类测试
  • 6.1 中文网页分类实现
  • 6.1.1 中文网页分类模块介绍
  • 6.1.2 中文网页分类系统实现
  • 6.2 分类测试
  • 6.2.1 测试用语料库
  • 6.2.2 测试环境说明
  • 6.2.3 测试评价指标
  • 6.2.4 测试实验设置和结果
  • 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  

    中文网页分类技术的研究与实现
    下载Doc文档

    猜你喜欢