论文摘要
随着网络和信息技术的迅速发展,特别是Internet的普及,网络信息资源已极为丰富。文本分类将杂乱无章的信息整合起来,方便用户快捷地定位感兴趣的信息,是目前研究的重要课题。本文对中文网页分类的主要技术,包括预处理、特征提取、分类算法等方面进行了深入的分析和研究。首先,针对网页表达形式的特点,将网页噪声分成局部噪声和全局噪声两类,分别给出了两种噪声的去噪方法,并实现了一种基于HTMLParser的网页预处理过程。其次,针对中文网页的特性,对中文分词做了深入的分析,实现了一种基于词典的分词系统,该系统将分词词典按照相同的第一个字分成不同的小词典,在各个小词典内部,利用二分查找方法,有效的提高了分词速度。第三,TFIDF特征选取和文本表示没有考虑特征项在各类之间和各个类的内部的分布情况对类的区分度的影响,针对这一缺点,本文采用一种在TFIDF基础上增加两个方差来调节TFIDF权重的改进方案。最后,比较了几种传统的文本分类算法的优劣,总结了现有的几种改进方案,并给出了一个基于中心向量的距离加权kNN分类的改进方法。该方法先根据中心向量淘汰离类的中心较远的样本,减小这些样本对类中心的影响,然后考虑到类中心距离不同的样本对类的作用不同,在计算属于各个类的文本的余弦值时增加一个权值。实验表明该方法比kNN法效果更好。经实验表明,本文所做研究的内容,有利于分类器的性能的改进,达到了一定的预期效果。
论文目录
摘要Abstract第1章 前言1.1 课题研究的背景与意义1.2 国内外研究现状1.2.1 文本分类在国际上的发展1.2.2 文本分类在国内的发展1.3 本文的研究内容1.4 本文的组织第2章 中文网页分类概述2.1 中文网页自动分类的定义2.1.1 文本分类的定义2.1.2 中文网页分类的定义和特点2.2 中文网页自动分类的过程2.3 中文网页分类的关键2.3.1 网页预处理2.3.2 特征提取2.3.3 分类算法2.3.4 性能评估第3章 网页预处理技术及中文分词的实现3.1 网页预处理概述3.2 局部噪声处理3.2.1 HTMLParser简介3.2.2 基于HTMLParser预处理算法3.3 全局噪声处理3.3.1 近似镜像网页检测方法3.3.2 近似镜像网页的检测算法3.4 中文分词的实现3.4.1 中文分词的主要问题3.4.2 中文分词的方法3.4.3 几种已有中文分词系统3.4.4 中文分词的实现第4章 特征提取及TFIDF的改进4.1 特征提取和表示4.1.1 特征提取4.1.2 特征表示4.2 TFIDF的改进4.2.1 TFIDF简介4.2.2 TFIDF的不足4.2.3 TFIDF的改进第5章 分类算法比较及改进方法5.1 几种传统的分类算法5.1.1 简单向量距离分类法5.1.2 朴素贝叶斯分类法(NB)5.1.3 K近邻分类法(kNN)5.1.4 支持向量机分类法(SVM)5.2 几种分类算法比较和改进方法5.2.1 几种分类算法比较5.2.2 几种已有分类算法改进方案5.3 基于中心向量法的距离加权kNN分类算法5.3.1 凸包及样本的近似均匀性验证5.3.2 基于中心向量的距离加权kNN算法第6章 中文网页分类实现及分类测试6.1 中文网页分类实现6.1.1 中文网页分类模块介绍6.1.2 中文网页分类系统实现6.2 分类测试6.2.1 测试用语料库6.2.2 测试环境说明6.2.3 测试评价指标6.2.4 测试实验设置和结果总结与展望参考文献致谢攻读硕士学位期间发表的论文
相关论文文献
标签:自动分类论文; 中文分词论文; 特征提取论文;