论文摘要
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择。目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择也一直是文本分类的关键技术。因此,对特征选择算法的研究与不同分类算法的研究都是十分必要的。本文所做的主要工作及创新点如下:1.本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,然后着重介绍了一个基于构造性覆盖算法的中文文本分类系统(Structural Covering Algorithm-Based Chinese Text Classification System,简记为CCTCS),重点阐述了文本预处理、特征选择、维数约简和构造性覆盖算法及其改进等技术的实现。2.在CCTCS中,第一步是利用中国科学院计算技术研究所提供的汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)对中文文本进行汉语分词,去除虚词和形容词,只保留名词和动词;再对文本进行预处理,删除文本中的停用词和稀疏词,可使文本维数平均压缩一半,从而实现文本的粗降维。而CCTCS需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维数两个问题。针对上述问题,本文使用信息增益(Information Gain,IG)与主成分分析(Principle Component Analysis,PCA)相结合的特征选择方法。3.CCTCS使用人工神经网络作为分类器,特征词的权重组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文本集进行网络训练。而在文本分类的时候,输入待分类文本的特征向量,通过已训练好的神经网络对文本进行分类,以确定文本的类别。4.本系统采用构造性覆盖算法(即交叉覆盖算法)来设计神经网络分类器,首先分析了一般的交叉覆盖算法(Generic Alternative Covering Algorithm,GACA),发现其存在一些不足之处,在分类过程中,可能会出现拒识和误判的现象,这将大大影响系统的识别率和正确率。然后针对这些不足,对交叉覆盖算法做出相应的改进,并给出其算法。实验证明,改进的交叉覆盖算法(Improved Alternative Covering Algorithm,IACA)在整体性能上优于一般的交叉覆盖算法。这种改进的算法不仅可以进一步提高交叉覆盖算法的训练速度,而且可以减少拒识样本数,提高识别的精度。5.本文通过实验比较分析了不同特征选择方法与设计分类器的交叉覆盖算法对分类性能的影响,证明了IG+PCA的特征选择方法比直接使用IG在基于交叉覆盖算法的中文文本分类中具有其优越性,而且改进的交叉覆盖算法应用到中文文本分类中在整体性能上优于一般的交叉覆盖算法,并得出利用交叉覆盖算法设计的神经网络的特征输入维数在200左右的时候分类性能最佳。本文在中文文本分类方面已经完成了一些工作,今后可以在以下几方面作进一步的研究:1.本论文所有的结论都是在实验的条件下得出的,而实际应用效果如何可以进一步在实际应用中进行验证。2.可将本文提出的特征选择方法应用于英文文本分类中,并设计更网络化、智能化、多功能化的分类系统,可以应用到如邮件过滤器或搜索引擎等热门实际应用中去。3.为了进一步提高本文方法的扩展性,可考虑分类别来作PCA,然后寻找各个类别的主成分(Principle Component,PC)的极大线性无关组来得到全局特征,这是我们将来研究的一个重点。