论文摘要
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度,而好的分类方法能够有效地提高分类的效果。文本的特征选择是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。本文在全面分析文本分类特征选择方法的基础上,重点研究了基于χ2统计的特征选择方法,发现了传统的χ2统计方法的如下缺点: 1)只考虑了特征在所有文档出现的文档频数,并没有考虑特征在某一文档中出现的频率,因此它对文档频率低的特征词不可靠。在类内部的文档中,如果特征词在少量文档中频繁出现很有可能对分类的贡献很大比如专指概念,显然这样的特征词能够很好代表这个类的特征,然而传统的χ2统计方法没有考虑这种情况;2)比较了特征词对一个类别的贡献和对其他类别的贡献,这样就可能把对其他类别贡献大的特征词选择出来。这种特征词往往是在指定类中出现频率较低而普遍存在于其他类,显然这样的特征词不能够代表这个类的特征。针对传统的χ2统计方法存在的缺陷,本文引入频度、类间集中度、类内分散度等指标对传统的χ2统计方法作出改进。引入频度是基于这样的想法:在某一类文本中出现次数越多的特征词越能代表这类文本;引入类间集中度是出于这样的目的:集中出现在某一类文本中,而不是均匀地分布在所有各类文本中的特征词更具标引价值,特征选择时能倾向于将这种特征词选择出来;引入类内分散度基于这样的考虑:在某类文本中均匀出现的特征词对该类文本具有较高的标引价值。本文的另外一个工作是,构造出了一个集分词、特征选择、分类于一体的中文文本分类系统。该系统的分词、特征选择、分类3个模块之间相互独立但它们之间的接口是统一的。也就是说各个模块可以很方便地调用其它模块,某一模块所作的修改对其它模块是透明的。今后的研究工作中对任何一个模块进行改进时不会引起其他模块的变动。为了验证本文提出的改进h统计方法的有效性和可行性,本文将改进χ2统计方法用于中文文本分类的效果和传统χ2统计方法进行了对比实验。实验结果表明无论从整体混淆矩阵、总体查全率、查对率、F1值以及各个类的查全率、查对率、F1值方面,改进的χ2统计方法都要优于传统的χ2统计方法,从而验证了本文对传统χ2统计方法的改进,是有效的可行的。
论文目录
相关论文文献
标签:文本分类论文; 特征选择论文; 统计方法论文; 中文文本分类系统论文;