粗糙集连续属性离散化方法研究

粗糙集连续属性离散化方法研究

论文摘要

传统的粗糙集理论只能对数据库中的离散属性进行处理,所以对存在连续属性的数据库必须进行离散化处理。连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,对后继阶段的机器学习或数据挖掘过程具有非常重要的意义。离散化是否合理决定着表达和提取相关信息的准确性。其中,Chi2系列算法和类-属性相互依赖(CAI)的相关算法分别是基于概率统计理论和基于信息理论的连续属性离散化重要方法。连续属性离散化方法在人工智能、机器学习等很多方面具有重要应用。首先,经过研究Chi2系列算法,本文提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确的对连续属性进行离散化。并且,在实验过程中,提出了一种训练集类比例抽取方法,很好的避免了训练集随机抽取的不均匀性。其次,本文对Chi2相关算法进行了深入分析,指出了其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法。新算法给出了一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化。在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果。最后,对χ2统计量中E ij取值不精确方面进行了分析,并且提出了两种改进方案。再次,本文对Chi2相关算法(尤其是Extended Chi2算法)进行了深入研究,指出了其中存在的问题,提出一种新的基于区间相似性度量的连续属性离散化算法。新算法定义了一个区间相似度函数,用该区间相似度函数作为离散化过程的新的合并标准。同时,在函数中给出了两个重要参数:条件参数α和微调参数c,分别体现了离散化过程中的均衡性和相邻两区间数目的相差程度;并且在算法内部给出了两个重要规定。新算法不仅继承了χ2统计合理的方面,同时也解决了Chi2相关算法中存在的问题,实现了公平的标准,能够更合理更有效地对连续属性进行离散化。最后,在系统地分析基于类-属性相互依赖(CAI)的相关算法基础上,提出了一个新的离散化标准(NCAIC),该标准考虑了数据的分布和所有类与连续属性之间的相互依赖,并且引入了粗糙集上近似概念作为离散化标准中的重要组成部分。基于新的标准提出了一种基于粗糙集和互信息的CAI连续属性离散化的最新算法。新算法利用类与属性间的互信息自动控制和调整连续属性离散化的程度,使得连续属性能够更合理更有效地对进行离散化。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 粗糙集及连续属性离散化的研究现状
  • 1.3 论文组织结构
  • 第二章 粗糙集连续属性离散化基本概念及信息论在离散化中的概念表示
  • 2.1 粗糙集理论相关概念
  • 2.2 连续属性离散化及Chi2 相关算法
  • 2.2.1 连续属性离散化
  • 2.2.2 Chi2 系列算法的基本概念及Extended Chi2 算法
  • 2.3 信息论及其在离散化中的概念表示
  • 第三章 连续属性离散化的Imp-Chi2 算法
  • 3.1 引言
  • 3.2 Imp-Chi2 算法
  • 3.3 训练集类比例抽取方法
  • 3.4 实验与结果
  • 3.5 小结
  • 第四章 连续属性离散化的Rectified Chi2 算法及相关研究
  • 4.1 引言
  • 4.2 对Chi2 相关算法的分析与Rectified Chi2 算法的提出
  • 4.3 基于差异序列的区间合并方法
  • ij取值的不足及其改进'>4.4 Eij取值的不足及其改进
  • 4.5 实验与结果
  • 4.6 小结
  • 第五章 基于区间相似性度量的连续属性离散化方法
  • 5.1 引言
  • 5.2 Chi2 相关算法的不足和区间相似度函数的提出
  • 5.2.1 Chi2 相关算法的不足
  • 5.2.2 区间相似度函数
  • 5.3 基于区间相似性度量的连续属性离散化算法
  • 5.4 举例
  • 5.5 实验结果与分析
  • 5.5.1 实验的建立与结果
  • 5.5.2 数据结果分析
  • 5.6 结论及下一步工作
  • 第六章 一种新的CAI 连续属性离散化算法
  • 6.1 引言
  • 6.2 CAI 相关算法存在的问题分析及新的离散化标准和算法的提出
  • 6.2.1 CAI 相关算法存在的问题
  • 6.2.2 新的离散化标准和算法的提出
  • 6.3 实验结果与分析
  • 6.3.1 实验的建立与结果
  • 6.3.2 数据结果分析
  • 6.4 结束语
  • 第七章 结论与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间撰写和发表的学术论文
  • 相关论文文献

    • [1].一种结合二元蚁群和粗糙集的连续属性离散化算法[J]. 计算机科学 2017(09)
    • [2].基于粒度商的连续属性离散化方法[J]. 阜阳师范学院学报(自然科学版) 2015(04)
    • [3].连续属性离散化研究[J]. 电脑知识与技术 2011(02)
    • [4].一种基于条件熵的粗糙集连续属性离散化方法[J]. 科学技术与工程 2010(15)
    • [5].一种监督型的连续属性离散化算法的研究[J]. 三明学院学报 2015(04)
    • [6].决策表连续属性离散化的一种方法[J]. 计算机工程与应用 2008(30)
    • [7].基于杂度削减的连续属性离散化方法[J]. 统计与决策 2012(05)
    • [8].基于词出现和信息增益的连续属性离散化方法[J]. 计算机应用研究 2009(02)
    • [9].一种基于遗传算法的连续属性离散化方法[J]. 钦州学院学报 2008(06)
    • [10].一种基于条件熵的粗糙集连续属性离散化方法[J]. 现代制造工程 2009(03)
    • [11].基于决策强度的决策表连续属性离散化算法[J]. 电脑知识与技术 2008(34)
    • [12].基于信息增益的多连续属性离散化算法改进[J]. 江西科学 2009(02)
    • [13].基于粗糙集的连续属性离散化算法及其应用[J]. 高师理科学刊 2008(02)
    • [14].连续属性离散化算法研究综述[J]. 计算机应用与软件 2014(08)
    • [15].一种新的基于连续属性离散化的属性约简方法[J]. 计算机应用研究 2009(01)
    • [16].一种基于差别矩阵的粗糙集连续属性离散化算法[J]. 现代电子技术 2010(24)
    • [17].粗糙集理论中连续属性离散化的一种新方法[J]. 实验室研究与探索 2008(08)
    • [18].一种基于连续属性离散化的知识分类方法[J]. 东北师大学报(自然科学版) 2012(01)
    • [19].一种新的无监督连续属性离散化方法[J]. 计算机工程与应用 2011(06)
    • [20].粗糙集连续属性离散化的k均值方法[J]. 辽宁工程技术大学学报(自然科学版) 2015(05)
    • [21].基于Shadowed Sets的连续属性离散化[J]. 模糊系统与数学 2012(02)
    • [22].不确定信息系统的属性离散化模型[J]. 河北理工大学学报(自然科学版) 2010(04)
    • [23].一种新的基于粗糙集的连续属性离散化算法[J]. 火力与指挥控制 2009(12)
    • [24].基于聚类的决策树连续属性离散化改进算法[J]. 微计算机信息 2011(06)
    • [25].基于Cramer's V的连续属性离散化算法[J]. 计算机工程 2008(04)
    • [26].粗糙集连续属性离散化通用模型及GASA方法[J]. 兰州理工大学学报 2011(01)
    • [27].一种基于SOFM网络的连续属性离散化方法[J]. 福建电脑 2013(07)
    • [28].基于FCM的连续属性模糊离散化方法[J]. 福建电脑 2013(03)
    • [29].基于连续属性离散化和SVM的分类预测方法[J]. 科技创新导报 2010(15)
    • [30].基于AHTPSO的连续属性离散化算法[J]. 计算机工程与科学 2016(05)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    粗糙集连续属性离散化方法研究
    下载Doc文档

    猜你喜欢