论文摘要
关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行了深入的研究,在做此研究时,本文主要是从提高文本分类效率的角度出发,来对改进关联文本分类算法。本文重点学习研究了以下几个方面的问题:文本分类特征提取选择、文本分类常用算法、关联规则挖掘Apriori算法、经典关联文本分类CBA算法并提出更有效的关联文本分类算法。目前关联文本分类CBA算法CBA-RG步骤中主要是使用了apriori算法来发现频繁模式或关联规则,本文针对apriori算法效率不高的弱点,从不同角度对Rule Generator步骤进行了改进,给出两种改进算法。主要的创新内容包括:1、利用完全图的特性改进关联文本分类算法完全图的关联文本改进算法结合项集的特性构造矩阵,根据矩阵生成频繁项集关联图,再进一步发掘了频繁项集关联图与完全子图的对应关系。该算法的优点还在于它可以不用根据K-1项集求出K项集,它可以通过直接求出频繁项集关联图的完全子图来求得K项集。2、利用二进制粒计算的特性改进关联文本分类算法提出了一种新的基于二进制Granule计算的关联规则算法,该算法从信息粒的角度出发,通过使用粒的“与运算”,把apriori算法中需要扫描数据库的链接步,改成了适合计算机操作的二进制“与”运算,从而简化了算法;通过做完“与运算”以后直接统计信息粒中1的个数是否大于最小支持度的支持计数,消除了单独的剪枝过程,提高了算法的效率。再把二进制粒计算的关联规则算法应用于CBA-RG过程中,替换了CBA算法中的原有的Apriori算法,从而提高了文本关联分类算法的效率。这两种关联文本分类算法的效率均优于经典CBA算法,两种算法之间也各有优点,针对不同的文本数据库,效率各有不同。