中文文本分类中特征选择方法的研究与实现

中文文本分类中特征选择方法的研究与实现

论文摘要

特征选择在整个中文文本分类过程中具有重要作用。国内现有的对于特征选择方法的研究主要关注于各特征选择方法在类分布均匀语料集上的分类效果。本文针对中文文本分类中一些特征选择方法在类分布不均匀语料集上,分类效果大幅下降的问题,在国内现有研究的基础上,分析和研究了影响其分类效果的主要因素,并提出了改进方案。在此基础上设计并实现了一个中文文本分类系统,为本文对中文文本分类的进一步研究提供了平台。主要工作有:1)针对传统信息增益特征选择方法在类分布不均匀语料集上分类效果明显下降的情况,分析并指出了影响信息增益特征选择方法分类效果的因素。结合国内现有研究,在传统信息增益方法的基础上,去除了方法中特征词不出现情况对文本分类的贡献,同时将集中度、分散度等因素加入到特征选择中。为了进一步提高分类效果,又将改进型信息增益方法用于权重调整技术中。2)针对传统CHI统计特征选择方法对低频词倚重大的缺点,深入分析了其对低频词倚重大的原因。在传统CHI特征选择方法的基础上,去除了方法中特征词与类别负相关的情况。为了进一步对改进后的方法进行分析和研究,又将改进后的方法引入到特征词权重调整技术中。与此同时,结合国内现有的关于CHI统计特征选择方法的研究,将集中度、分散度、频度等因素引入到改进后的方法中,提高了该方法的分类效果。3)为了实验和验证上述改进方法的分类效果,同时为进一步对中文文本分类的研究提供平台,设计和开发了一个中文文本分类系统。4)为了进一步发现和探索中文文本分类中特征词权重调整方法中的问题和规律,在已开发的中文文本分类系统上对不同分类器不同语料集上各权重调整方法的分类效果进行了实验和总结。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.3 研究内容
  • 1.4 论文组织
  • 第二章 文本分类的相关技术
  • 2.1 文本分类过程
  • 2.2 语料集
  • 2.3 中文分词
  • 2.4 去停用词
  • 2.5 降维处理
  • 2.5.1 特征选择
  • 2.5.2 特征抽取
  • 2.6 文本表示
  • 2.7 常用分类算法
  • 2.7.1 Naive Bayes算法
  • 2.7.2 SVM算法
  • 2.7.3 KNN算法
  • 2.8 分类性能评估
  • 第三章 信息增益特征选择方法的分析与改进
  • 3.1 特征选择
  • 3.2 信息熵和信息增益
  • 3.2.1 信息熵
  • 3.2.2 条件熵
  • 3.2.3 信息增益
  • 3.3 信息增益方法的分析与改进
  • 3.4 实验分析
  • 3.5 本章小结
  • 第四章 CHI统计特征选择方法的分析与改进
  • 4.1 特征选择
  • 4.2 CHI统计特征选择方法
  • 4.3 CHI统计方法的分析与改进
  • 4.4 实验分析
  • 4.5 本章小结
  • 第五章 中文文本分类系统的设计与实现
  • 5.1 系统开发环境
  • 5.2 系统设计
  • 5.2.1 影响系统性能的主要因素
  • 5.2.2 系统需求分析
  • 5.2.3 系统的用例图
  • 5.2.4 系统功能模块及相关流程图
  • 5.2.5 系统的关键类介绍
  • 5.3 系统实现
  • 5.3.1 系统基本功能实现
  • 5.3.2 改进型信息增益方法的实现
  • 5.3.3 改进型CHI统计方法的实现
  • 5.4 系统的主要特点
  • 5.5 权重调整方法分类效果研究
  • 5.5.1 传统方法在KNN分类器上的分类效果
  • 5.5.2 传统方法在SVM分类器上的分类效果
  • 5.5.3 分类效果的分析与总结
  • 5.6 本章小结
  • 总结与展望
  • 参考文献
  • 攻读学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].基于贝叶斯分类器的中文文本分类[J]. 电子技术与软件工程 2016(22)
    • [2].中文文本分类系统构架设计[J]. 信息与电脑(理论版) 2012(02)
    • [3].中文文本分类中特征提取的方法[J]. 湖北工业大学学报 2010(02)
    • [4].中文文本分类反馈学习研究[J]. 情报理论与实践 2009(06)
    • [5].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版)网络.预览 2008(07)
    • [6].不同情境下中文文本分类模型的表现及选择[J]. 湖南大学学报(自然科学版) 2016(04)
    • [7].基于类内关键词的中文文本分类模型的改进[J]. 广西师范大学学报(自然科学版) 2009(03)
    • [8].研究中文文本分类技术的辅助平台[J]. 清华大学学报(自然科学版) 2008(07)
    • [9].基于极限学习机的中文文本分类方法[J]. 重庆理工大学学报(自然科学) 2018(08)
    • [10].基于局部线性判别嵌入算法的中文文本分类研究[J]. 情报理论与实践 2014(02)
    • [11].基于演化超网络的中文文本分类方法[J]. 江苏大学学报(自然科学版) 2013(02)
    • [12].中文文本分类关键技术的研究[J]. 电脑编程技巧与维护 2016(14)
    • [13].基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术 2015(02)
    • [14].中文文本分类特征选择的研究[J]. 皖西学院学报 2009(02)
    • [15].多视图学习的中文文本分类研究[J]. 信息技术与信息化 2016(09)
    • [16].中文文本分类中一种基于语义的特征降维方法[J]. 现代情报 2011(11)
    • [17].应用于中文文本分类的改进KNN算法[J]. 今日科苑 2010(08)
    • [18].中文文本分类中特征提取方法的比较与改进[J]. 兰州工业高等专科学校学报 2010(06)
    • [19].基于语义理解注意力神经网络的多元特征融合中文文本分类[J]. 电子与信息学报 2018(05)
    • [20].改进的KNN方法及其在中文文本分类中的应用[J]. 西华大学学报(自然科学版) 2008(02)
    • [21].基于朴素贝叶斯的新闻文本分类[J]. 科技风 2020(14)
    • [22].DBN在中文文本分类中的应用[J]. 计算机工程与设计 2018(09)
    • [23].基于CapsNet的中文文本分类研究[J]. 数据分析与知识发现 2018(12)
    • [24].基于SVM的中文文本分类系统的设计与实现[J]. 电子设计工程 2016(16)
    • [25].基于SA-SVM的中文文本分类研究[J]. 计算机应用与软件 2019(03)
    • [26].基于信息熵加权的Word2vec中文文本分类研究[J]. 长春师范大学学报 2020(02)
    • [27].基于TF-IDF中文文本分类实现[J]. 现代计算机 2020(06)
    • [28].基于Python的中文文本分类的实现[J]. 福建电脑 2016(12)
    • [29].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
    • [30].基于张量空间模型的中文文本分类[J]. 合肥工业大学学报(自然科学版) 2010(12)

    标签:;  ;  ;  ;  ;  

    中文文本分类中特征选择方法的研究与实现
    下载Doc文档

    猜你喜欢