论文摘要
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为了预测其中很少出现却很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率较低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,本课题的研究具有重要的理论意义和良好的应用前景。本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能,即先对文本的训练集进行预处理,再用处理过的数据集训练分类器。提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意段落,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本。其主要思想是通过增加一些文本使各类中所含文本数量达到平衡。通过实验表明,该系统有效地提高了小类别文本分类的正确率。
论文目录
摘要Abstract第1章 引言1.1 研究背景和意义1.2 国内外研究现状1.3 本文的工作第2章 文本分类技术2.1 中文文本分词2.2 向量空间模型2.3 特征选择方法2.3.1 信息增益2统计量'>2.3.2 χ2统计量2.3.3 互信息2.4 分类器算法2.4.1 K-近邻算法(KNN)2.4.2 支持向量机算法(SVM)第3章 不平衡数据集上的文本分类技术3.1 数据不平衡问题3.2 基于数据层的方法3.2.1 数据抽样3.2.2 改进的抽样方法第4章 不平衡数据集上的文本分类系统4.1 系统组成4.2 技术难点第5章 实验结果分析5.1 实验数据集5.2 性能评价标准5.3 测试结果及分析5.3.1 特征提取方法测试5.3.2 分类算法测试5.3.3 系统优化试验5.4 小结第6章 结果与展望6.1 工作总结6.2 未来工作展望参考文献攻读硕士学位期间发表论文情况致谢附录
相关论文文献
标签:文本分类论文; 不平衡数据集论文; 文本特征论文; 分类器论文;