论文摘要
随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及,在现实生活中,每一个领域都不断产生海量数据和信息,特别是海量的文本数据。如何自动将这些文本数据进行分类整理,挖掘出有效信息,给人们有效利用,成为一个日趋重要的问题。因此,文本数据挖掘作为一门新兴学科,逐渐成为了一门引人注目、发展迅速的领域。文本分类是文本数据挖掘中的一个基本技术,其作用是根据文本的各项特征判断其所属的预先设计的类别。它在自然语言处理与理解、信息组织与管理、内容信息过滤等领域具有非常广泛的应用。早期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分类领域中,从不同的方面取得了不错的效果。目前,各种文本分类算法都在一定的领域里有好的效果,但都不能成为通用方法,因此,如何对现有的文本分类算法进行评估也是一个非常重要的问题。分类的精度是已经被广泛用于评估文本分类算法性能的主要度量标准之一,但是,当要处理的类分布不均匀或者分类出错的代价不相同时,精度的局限性就显示出来了。在这种情况下,AUC被提出作为一个新的评估文本分类算法性能的度量标准。已有研究表明,AUC比精度的健壮性要好,而且有它特有的排序评测功能。这样,原有的分类算法在新的评估标准下是否和原来一样有效,是一个值得关注的问题。由于新的标准的提出,目前还没有完整的实验对原有文本分类算法进行评测。本文将采用统一的文本基准集,重新对支持向量机,决策树,最近邻,朴素贝叶斯几个主流的文本分类算法进行实验比较,主要工作有:一是介绍和分析了几种主流的文本分类算法的基本原理;二是介绍了一种新的文本分类器评估标准,分析了它的评测原理以及和原有评估标准的比较;三是设计了详细的实验对几种主流文本分类算法进行测评,指出它们在新标准下的不足和今后需要改进的方向。