基于粗糙集的数据挖掘算法研究与实现

基于粗糙集的数据挖掘算法研究与实现

论文摘要

数据挖掘是从数据库的大量数据中提取隐含的、有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,是目前相当活跃的研究领域。在数据挖掘的诸多方法中,粗糙集方法不失为一种比较好的数据挖掘工具。粗糙集理论是20世纪80年代发展起来的一种处理不精确、不确定和模糊数据的新型数学工具,它能从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用,受到了众多学者的重视,取得了较大的发展。论文以四川省科技攻关项目“电信商业智能数据挖掘引擎的研究”为依托,就粗糙集理论在数据挖掘中的算法问题进行研究。本文工作主要有以下四个部分:1、介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程,详细介绍了粗糙集理论的基础知识,并对当前国内外粗糙集理论的研究现状进行了详细阐述。2、对粗糙集理论的约简算法进行了比较深入的研究。约简算法包括属性约简和属性值约简,其中属性约简是基于粗糙集理论的数据挖掘模型中的关键步骤。本部分介绍了基本的属性约简和属性值约简算法,针对已有算法存在的缺陷提出了改进的算法,并结合实验对改进算法和已有算法进行了对比,得出了自己的结论。其中主要包括基于信息熵的属性约简算法和基于信息熵的属性约简改进算法分析对比,以及HORAFA算法和HORAFA改进算法的分析对比。最后,提出了一种基于近似精度的约简算法,并结合实例对算法作出了分析,得出自己的结论。3、针对动态数据提出了动态约简算法,即增量式约简算法。对增量数据挖掘技术进行了研究,提出了增量式规则提取方法的一般设计原则。在此基础上给出了扩充特征矩阵的定义,提出了基于扩充特征矩阵的增量式约简算法。然后介绍了ASRAI算法,并对ASRAI算法提出了一种改进算法。4、作为粗糙集约简算法的应用,本文提出了基于粗糙集理论的电子邮件过滤模型,设计了基于粗糙集理论的针对个人用户的实时电子邮件过滤系统,并通过实验对系统模型进行了验证。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 数据挖掘研究发展现状
  • 1.3 粗糙集理论研究现状
  • 1.3.1 粗糙集理论的产生和发展
  • 1.3.2 粗糙集理论的研究现状
  • 1.4 本文的主要工作内容
  • 1.5 本文的组织结构
  • 第二章 数据挖掘与粗糙集理论
  • 2.1 数据库中的知识发现与数据挖掘
  • 2.2 数据挖掘简介
  • 2.2.1 数据挖掘模式类型
  • 2.2.2 数据挖掘的分类发现方法
  • 2.3 粗糙集理论的基本概念
  • 2.3.1 信息系统
  • 2.3.2 不可区分关系
  • 2.3.3 集合的近似
  • 2.3.4 近似的度量
  • 2.3.5 属性的约简
  • 2.3.6 属性的相对约简
  • 2.3.7 属性的依赖性
  • 2.3.8 属性的重要度
  • 2.4 粗糙集的扩展模型
  • 2.4.1 变精度粗糙集模型
  • 2.4.2 概率粗糙集模型
  • 2.4.3 加权粗糙集模型
  • 2.5 粗糙集理论的特点
  • 2.6 基于粗糙集的数据挖掘模型
  • 2.7 小结
  • 第三章 基于粗糙集理论的约简算法研究
  • 3.1 基本算法
  • 3.2 基于区分矩阵和逻辑运算的约简算法
  • 3.3 归纳属性约简算法
  • 3.4 MIBARK 属性约简算法
  • 3.5 MIBARK 算法的改进
  • 3.5.1 算法思想及步骤
  • 3.5.2 MIBARK-NC 算法实验分析
  • 3.5.3 MIBARK-NC 算法与MIBARK 算法对比分析
  • 3.6 HORAFA 算法
  • 3.6.1 HORAFA 算法思想及步骤
  • 3.6.2 HORAFA 算法复杂度
  • 3.6.3 HORAFA 算法实验与分析
  • 3.7 HORAFA 算法的改进
  • 3.7.1 HORAFA-SVDM 算法思想及步骤
  • 3.7.2 HORAFA-SVDM 的实验分析
  • 3.7.3 HORAFA-SVDM 算法与HORAFA 算法对比分析
  • 3.8 基于近似精度的约简算法
  • 3.8.1 算法思想与步骤
  • 3.8.2 算法实例分析
  • 3.9 小结
  • 第四章 增量式属性约简算法研究
  • 4.1 增量式算法原理
  • 4.2 增量式算法的设计原则
  • 4.3 基于特征矩阵的增量式算法
  • 4.3.1 特征矩阵的扩展定义
  • 4.3.2 基于特征矩阵的规则提取
  • 4.3.3 算法时间复杂度分析
  • 4.4 ASRAI 算法
  • 4.4.1 ASRAI 算法的基本思想与步骤
  • 4.4.2 ASRAI 算法分析
  • 4.5 ASRAI 算法的改进
  • 4.5.1 算法原理
  • 4.5.2 算法步骤
  • 4.5.3 算法复杂度分析
  • 4.5.4 实例分析
  • 4.6 小结
  • 第五章 基于粗糙集的电子邮件过滤模型
  • 5.1 电子邮件过滤
  • 5.1.1 垃圾邮件
  • 5.1.2 电子邮件过滤方法
  • 5.2 邮件过滤系统的粗糙集模型
  • 5.3 实验分析
  • 5.4 小结
  • 第六章 结论和展望
  • 6.1 全文总结
  • 6.2 课题的后续研究工作
  • 致谢
  • 参考文献
  • 攻硕期间取得的成果
  • 相关论文文献

    • [1].基于改进主成分分析法的特征约简算法研究[J]. 安徽职业技术学院学报 2020(02)
    • [2].云计算下保持边界域划分的知识约简算法研究[J]. 计算机工程与应用 2015(24)
    • [3].信息系统的最大可能约简算法[J]. 洛阳师范学院学报 2020(02)
    • [4].基于云计算的属性重要度约简算法研究[J]. 洛阳师范学院学报 2014(08)
    • [5].云计算环境下差别矩阵知识约简算法研究[J]. 计算机科学 2011(08)
    • [6].多半径邻域粗糙集改进约简算法[J]. 计算机工程与应用 2017(11)
    • [7].基于素数性质的布尔函数约简算法[J]. 长春工业大学学报(自然科学版) 2008(06)
    • [8].因素空间理论的因素约简算法[J]. 辽宁工程技术大学学报(自然科学版) 2017(02)
    • [9].关于粒度熵的知识约简算法[J]. 无线互联科技 2013(11)
    • [10].基于绝对信息量的覆盖增量约简算法[J]. 模式识别与人工智能 2011(02)
    • [11].基于核心值的改进值约简算法研究[J]. 煤炭技术 2012(02)
    • [12].云计算环境下知识约简算法[J]. 计算机学报 2011(12)
    • [13].基于粗糙集理论的属性值约简算法研究[J]. 计算机与现代化 2008(07)
    • [14].方差辗转的软集参数约简算法[J]. 计算机工程与科学 2020(02)
    • [15].基于粒度熵的知识约简算法应用[J]. 电脑开发与应用 2015(02)
    • [16].基于信息量的完备覆盖约简算法[J]. 计算机科学 2012(10)
    • [17].基于信息观点的约简算法比较[J]. 计算机科学 2011(01)
    • [18].信息系统中的值约简算法研究[J]. 白城师范学院学报 2011(03)
    • [19].一种新的基于属性重要性的粗糙集值约简算法[J]. 电脑知识与技术 2009(22)
    • [20].粗糙集约简算法的研究与实现[J]. 矿业研究与开发 2008(04)
    • [21].基于抽样的随机约简算法[J]. 电脑知识与技术 2017(33)
    • [22].一种基于相对粒度的决策表约简算法[J]. 计算机科学 2009(03)
    • [23].基于不可区分度的启发式快速完备约简算法[J]. 计算机科学 2009(08)
    • [24].一种新的基于区分矩阵的值约简算法[J]. 工业仪表与自动化装置 2014(02)
    • [25].考虑用户偏好的启发式约简算法[J]. 微计算机信息 2010(27)
    • [26].基于决策熵的值约简算法[J]. 南京大学学报(自然科学版) 2010(05)
    • [27].粗糙集值约简算法研究与应用[J]. 决策与信息(财经观察) 2008(10)
    • [28].基于长度约束区分矩阵的约简算法研究[J]. 计算机工程与应用 2008(09)
    • [29].一种基于粗糙集理论的值约简算法[J]. 广西科学院学报 2013(01)
    • [30].基于分辨矩阵的快速完备约简算法[J]. 计算机工程与应用 2008(08)

    标签:;  ;  ;  ;  

    基于粗糙集的数据挖掘算法研究与实现
    下载Doc文档

    猜你喜欢