基于不平衡数据集的文本分类技术

论文摘要

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为了预测其中很少出现却很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率较低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,本课题的研究具有重要的理论意义和良好的应用前景。本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能,即先对文本的训练集进行预处理,再用处理过的数据集训练分类器。提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意段落,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本。其主要思想是通过增加一些文本使各类中所含文本数量达到平衡。通过实验表明,该系统有效地提高了小类别文本分类的正确率。

论文目录

摘要

Abstract

第1章引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的工作

第2章文本分类技术

2.1 中文文本分词

2.2 向量空间模型

2.3 特征选择方法

2.3.1 信息增益

2统计量'>2.3.2 χ²统计量

2.3.3 互信息

2.4 分类器算法

2.4.1 K-近邻算法（KNN）

2.4.2 支持向量机算法（SVM）

第3章不平衡数据集上的文本分类技术

3.1 数据不平衡问题

3.2 基于数据层的方法

3.2.1 数据抽样

3.2.2 改进的抽样方法

第4章不平衡数据集上的文本分类系统

4.1 系统组成

4.2 技术难点

第5章实验结果分析

5.1 实验数据集

5.2 性能评价标准

5.3 测试结果及分析

5.3.1 特征提取方法测试

5.3.2 分类算法测试

5.3.3 系统优化试验

5.4 小结

第6章结果与展望

6.1 工作总结

6.2 未来工作展望

参考文献

攻读硕士学位期间发表论文情况

致谢

附录

基于不平衡数据集的文本分类技术

论文摘要

论文目录

相关论文文献

猜你喜欢