基于X~2统计的中文文本分类特征选择方法研究

论文摘要

从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度,而好的分类方法能够有效地提高分类的效果。文本的特征选择是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。本文在全面分析文本分类特征选择方法的基础上,重点研究了基于χ2统计的特征选择方法,发现了传统的χ2统计方法的如下缺点: 1)只考虑了特征在所有文档出现的文档频数,并没有考虑特征在某一文档中出现的频率,因此它对文档频率低的特征词不可靠。在类内部的文档中,如果特征词在少量文档中频繁出现很有可能对分类的贡献很大比如专指概念,显然这样的特征词能够很好代表这个类的特征,然而传统的χ2统计方法没有考虑这种情况;2)比较了特征词对一个类别的贡献和对其他类别的贡献,这样就可能把对其他类别贡献大的特征词选择出来。这种特征词往往是在指定类中出现频率较低而普遍存在于其他类,显然这样的特征词不能够代表这个类的特征。针对传统的χ2统计方法存在的缺陷,本文引入频度、类间集中度、类内分散度等指标对传统的χ2统计方法作出改进。引入频度是基于这样的想法:在某一类文本中出现次数越多的特征词越能代表这类文本;引入类间集中度是出于这样的目的:集中出现在某一类文本中,而不是均匀地分布在所有各类文本中的特征词更具标引价值,特征选择时能倾向于将这种特征词选择出来;引入类内分散度基于这样的考虑:在某类文本中均匀出现的特征词对该类文本具有较高的标引价值。本文的另外一个工作是,构造出了一个集分词、特征选择、分类于一体的中文文本分类系统。该系统的分词、特征选择、分类3个模块之间相互独立但它们之间的接口是统一的。也就是说各个模块可以很方便地调用其它模块,某一模块所作的修改对其它模块是透明的。今后的研究工作中对任何一个模块进行改进时不会引起其他模块的变动。为了验证本文提出的改进h统计方法的有效性和可行性,本文将改进χ2统计方法用于中文文本分类的效果和传统χ2统计方法进行了对比实验。实验结果表明无论从整体混淆矩阵、总体查全率、查对率、F1值以及各个类的查全率、查对率、F1值方面,改进的χ2统计方法都要优于传统的χ2统计方法,从而验证了本文对传统χ2统计方法的改进,是有效的可行的。

论文目录

摘要

ABSTRACT

1 绪论

1.1 问题的提出及研究意义

1.1.1 问题的提出

1.1.2 研究意义

1.2 国内外研究现状

1.3 本文的研究内容

1.3.1 本文的主要工作

1.3.2 本文的组织

2 文本分类技术

2.1 引言

2.2 文本分类问题描述

2.3 文本的形式化

2.4 常用的文本特征选择方法

2.4.1 特征词的文档频率（DF）

2.4.2 信息增益方法（IG）

2.4.3 互信息方法（MI）

2 统计量（CHI）'>2.4.4 χ²统计量（CHI）

2.5 特征词的权重计算

2.6 常用的文本分类方法

2.6.1 Naive Bayes 方法

2.6.2 KNN 方法

2.6.3 类中心向量法

2.6.4 神经网络

2.6.5 支持向量机

2.6.6 决策树方法

2.7 文本分类方法的性能评估

2.7.1 查全率与查对率、宏平均与微平均

2.7.2 BEP（Break-even point）和F1（F-measure）

2.8 本章小结

2 统计的特征选择方法'>3 基于χ²统计的特征选择方法

2统计方法的不足'>3.1 χ²统计方法的不足

2统计方法的改进'>3.2 χ²统计方法的改进

3.2.1 频度

3.2.2 类间集中度

3.2.3 类内分散度

3.3 本章小结

4 实验方法与结果分析

4.1 中文文本分类系统构造

4.1.1 中文文本分类系统结构

4.1.2 分词系统

4.1.3 特征选择系统

4.1.4 分类系统

4.1.5 本节小结

4.2 数据来源

4.3 特征选择个数的选取

4.4 文本分类实验

4.4.1 混淆矩阵

1 值'>4.4.2 总体查全率、查对率、F₁值

1 值'>4.4.3 各个类的查全率、查对率、F₁值

4.4.4 各个类的分类情况图形显示

4.4.5 本节小结

4.5 本章小结

5 结论与展望

5.1 本文的工作总结

5.2 进一步的工作

致谢

参考文献

附录

基于X~2统计的中文文本分类特征选择方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢