关联规则在文本分类中的研究

关联规则在文本分类中的研究

论文摘要

关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行了深入的研究,在做此研究时,本文主要是从提高文本分类效率的角度出发,来对改进关联文本分类算法。本文重点学习研究了以下几个方面的问题:文本分类特征提取选择、文本分类常用算法、关联规则挖掘Apriori算法、经典关联文本分类CBA算法并提出更有效的关联文本分类算法。目前关联文本分类CBA算法CBA-RG步骤中主要是使用了apriori算法来发现频繁模式或关联规则,本文针对apriori算法效率不高的弱点,从不同角度对Rule Generator步骤进行了改进,给出两种改进算法。主要的创新内容包括:1、利用完全图的特性改进关联文本分类算法完全图的关联文本改进算法结合项集的特性构造矩阵,根据矩阵生成频繁项集关联图,再进一步发掘了频繁项集关联图与完全子图的对应关系。该算法的优点还在于它可以不用根据K-1项集求出K项集,它可以通过直接求出频繁项集关联图的完全子图来求得K项集。2、利用二进制粒计算的特性改进关联文本分类算法提出了一种新的基于二进制Granule计算的关联规则算法,该算法从信息粒的角度出发,通过使用粒的“与运算”,把apriori算法中需要扫描数据库的链接步,改成了适合计算机操作的二进制“与”运算,从而简化了算法;通过做完“与运算”以后直接统计信息粒中1的个数是否大于最小支持度的支持计数,消除了单独的剪枝过程,提高了算法的效率。再把二进制粒计算的关联规则算法应用于CBA-RG过程中,替换了CBA算法中的原有的Apriori算法,从而提高了文本关联分类算法的效率。这两种关联文本分类算法的效率均优于经典CBA算法,两种算法之间也各有优点,针对不同的文本数据库,效率各有不同。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究动态和水平
  • 1.3 论文所做的工作及意义
  • 1.4 论文的组织结构
  • 第2章 文本分类及关联规则简介
  • 2.1 文本挖掘概述
  • 2.1.1 文本挖掘定义
  • 2.1.2 文本挖掘过程
  • 2.2 文本分类
  • 2.2.1 文本分类简介
  • 2.2.2 文本的特征表示
  • 2.2.3 文本分类算法
  • 2.3 关联规则挖掘算法
  • 2.3.1 Apriori算法
  • 2.3.2 算法描述
  • 2.3.3 实例分析
  • 第3章 关联文本分类
  • 3.1 关联文本分类步骤
  • 3.2 文本数据预处理
  • 3.2.1 文本预处理过程
  • 3.2.2 文本事务数据库的形成
  • 3.3 关联规则挖掘
  • 3.3.1 CBA-RG的基本概念
  • 3.3.2 CBA-RG算法
  • 3.3.3 实例分析
  • 3.4 文本分类器
  • 3.4.1 CBA-CB基本概念
  • 3.4.2 规则优先级
  • 3.4.3 CAB-CB算法
  • 3.5 文本分类模型的评估
  • 第4章 改进的关联文本分类算法
  • 4.1 基于完全图的关联文本改进算法
  • 4.1.1 频繁项集的完全图表示
  • 4.1.2 算法描述及实例分析
  • 4.1.3 算法优点
  • 4.2 二进制Granule计算的关联文本改进算法
  • 4.2.1 二进制信息粒表示及粒计算
  • 4.2.2 算法描述
  • 4.2.3 实例分析
  • 4.2.4 改进算法优点
  • 4.3 算法复杂度比较
  • 4.3.1 空间复杂性分析
  • 4.3.2 时间复杂度分析
  • 第5章 总结与展望
  • 5.1 工作总结
  • 5.2 解决的问题和创新
  • 5.3 展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    关联规则在文本分类中的研究
    下载Doc文档

    猜你喜欢