基于SVM-KNN的文本分类系统的设计与实现

基于SVM-KNN的文本分类系统的设计与实现

论文摘要

随着因特网的飞速发展,人们可以从网络上获取越来越多诸如文本、图片、视频等各种形式的信息,而其中半结构化或无结构化的文本信息占据了很大一部分。如何利用文本分类技术对这些文本信息进行分门别类是非常重要的。文本分类技术在一定程度上解决了信息杂乱的问题,而且它已成为搜索引擎、垃圾邮件过滤等领域的基础。所以,对文本分类的研究有着重要的意义。本文首先介绍了中文文本分类所涉及到的相关理论,如:向量空间模型、特征选择、分类方法、评价指标、权重计算方法以及相似度计算方法。其次通过对权重计算算法TFIDF的分析研究,针对传统TFIDF算法忽略特征项的在整个样本集上各个类之间的分布情况这一不足,在传统算法中增加了表示特征项在各个类间的分布情况的不均衡变量以及表示类内各个文本间分布情况的参数,使改进后的权重计算方法更能够体现出特征项的类别贡献率。对信息增益特征选择方法进行了分析,针对信息增益方法在样本集不均匀时,性能大幅下降的缺点,引入了体现特征项类别表征能力的分散度和集中度两个变量,使信息增益方法进一步提升性能。对KNN和SVM分类方法进行了分析,在此基础上,针对SVM方法在最优分界面附近分类准确度降低的缺点和KNN分类速度慢的缺点,提出了SVM-KNN分类方法,提高了分类精度和速度。并针对该算法在样本分布不平衡时存在的不足之处,加入了惩罚机制,进行了改进。在理论研究的基础上,构建了一个包括预处理模块、权重计算和特征选择模块、分类模块以及性能评测模块四个功能模块的中文文本分类系统,用C++语言实现。最后利用实现的中文文本分类系统作为测试平台,利用Sogou实验室语料库语料为样本集,通过实验验证了对权重计算和特征选择算法以及SVM-KNN分类算法改进的有效性和可行性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本论文所做的主要工作
  • 1.4 论文组织结构
  • 第2章 文本分类的相关技术
  • 2.1 文本分类过程
  • 2.2 文本预处理
  • 2.3 文本表示模型
  • 2.3.1 向量空间模型
  • 2.3.2 特征项权重计算
  • 2.4 降维处理
  • 2.4.1 特征抽取
  • 2.4.2 特征选择
  • 2.4.2.1 文档频率DF
  • 2.4.2.2 信息增益IG
  • 2.4.2.3 互信息MI
  • 2统计CHI'>2.4.2.4 χ2统计CHI
  • 2.5 文本分类方法
  • 2.5.1 KNN方法
  • 2.5.2 支持向量机方法
  • 2.6 分类性能评估方法
  • 2.7 本章小结
  • 第3章 特征项权重计算及特征选择方法的分析与改进
  • 3.1 特征项的权重算法分析
  • 3.2 TFIDF的改进
  • 3.3 信息增益特征选择方法的分析
  • 3.4 信息增益特征选择方法的改进
  • 3.5 实验和数据分析
  • 3.5.1 分类器
  • 3.5.2 数据集
  • 3.5.3 实验结果及分析
  • 3.6 本章小结
  • 第4章 基于SVM-KNN的文本分类算法的分析与改进
  • 4.1 算法提出的背景
  • 4.2 算法的实现
  • 4.3 算法的改进
  • 4.4 本章小结
  • 第5章 中文文本分类系统的设计与实现
  • 5.1 系统总体设计
  • 5.1.1 系统需求分析
  • 5.1.2 影响系统性能的主要因素
  • 5.1.3 系统的模型设计
  • 5.1.4 系统的总体结构
  • 5.2 系统功能模块设计
  • 5.2.1 系统功能模块及相关流程图
  • 5.2.1.1 文本预处理模块
  • 5.2.1.2 权重计算和特征选择模块
  • 5.2.1.3 分类模块
  • 5.2.1.4 性能评测模块
  • 5.2.2 系统关键类功能说明
  • 5.3 系统实现
  • 5.3.1 系统基本功能的实现
  • 5.3.2 改进型权重计算和信息增益方法的实现
  • 5.3.3 分类模块的实现
  • 5.3.4 性能评测模块的实现
  • 5.4 实验设置
  • 5.4.1 开发环境
  • 5.4.2 实验数据
  • 5.5 实验结果分析
  • 5.5.1 混淆矩阵
  • 5.5.2 召回率、准确率、F1值
  • 5.5.3 分类效果分析与总结
  • 5.6 系统的主要特点
  • 5.7 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 后续工作展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于SVM-KNN算法的特色数据库分类体系初探[J]. 情报科学 2009(11)
    • [2].基于经验模态分解的SVM-KNN高光谱图像分类方法[J]. 微型电脑应用 2016(12)
    • [3].SVM-KNN分类器在异常行为检测中的应用[J]. 辽宁科技大学学报 2010(05)
    • [4].基于半监督学习的SVM-KNN[J]. 北京交通大学学报 2009(06)
    • [5].基于增量学习的SVM-KNN网络入侵检测方法[J]. 计算机工程 2020(04)
    • [6].基于SVM-KNN茶叶图像纹理分类[J]. 中国茶叶加工 2016(06)
    • [7].基于案例推理和SVM-KNN的电能质量扰动分类方法[J]. 兰州理工大学学报 2017(04)
    • [8].基于多分类SVM-KNN的实体关系抽取方法[J]. 数据采集与处理 2015(01)
    • [9].基于SVM-KNN的降雨条件下短时公交客流预测[J]. 交通信息与安全 2018(05)
    • [10].一种新的银行信用风险识别方法:SVM-KNN组合模型[J]. 金融监管研究 2020(07)
    • [11].基于曲波纹理分析和SVM-KNN分类的假指纹检测算法[J]. 计算机科学 2014(12)
    • [12].SVM-KNN分类器在网页分类中的应用[J]. 科学技术与工程 2009(16)
    • [13].SVM-KNN分类器在赤潮生物图像识别中的应用[J]. 心智与计算 2009(01)
    • [14].基于SVM-KNN的人体步态相位识别[J]. 科技视界 2019(28)
    • [15].一种新的基于SVM-KNN的Web文本分类算法[J]. 计算机与数字工程 2010(04)
    • [16].傅里叶识别分析在赤潮生物自动识别中的应用研究[J]. 海洋湖沼通报 2011(04)
    • [17].基于SVM-KNN的文本分类算法及其分析[J]. 计算机时代 2010(08)
    • [18].前缀字母为特征在维吾尔语文本情感分类中的研究[J]. 科教导刊(中旬刊) 2016(09)

    标签:;  ;  ;  ;  ;  

    基于SVM-KNN的文本分类系统的设计与实现
    下载Doc文档

    猜你喜欢