基于粗糙集的数据离散化方法研究

基于粗糙集的数据离散化方法研究

论文摘要

计算机网络的诞生以及信息技术的高速发展给整个人类社会带来了巨大的变化,并产生了深远的影响。随着全球信息化进程的逐步扩大,数据成为最为重要的战略资源。面对高速膨胀的信息规模,数据挖掘已成为研究者们关注的焦点。作为知识发现过程中最重要的环节,数据挖掘的作用是从海量数据中抽取出有规律、有价值的知识。而在现实世界中采集到的数据由于常常含有噪声数据,存在不完备、不协调信息,并且数据集合规模普遍很大,而且通常具有连续的特征空间,因此不适合直接应用于数据挖掘过程中来。又由于数据挖掘算法一般都要求实际数据中各个属性值必需用离散值表达,因此对于后继阶段的机器学习和数据挖掘过程而言,对数据集合中的连续属性值进行离散化具有非常重要的意义。本文从决策表和信息熵的角度出发,提出了一种改进的粗糙集连续属性离散化算法,算法中提出了“条件属性权重”和“等价类投影”的思想,通过判断条件属性对于决策表的重要性,比较条件属性值与等价类投影之间的关系,快速排除不必要的候选断点,进而优化候选断点集合,提高算法效率,节约时间。在文章的最后给出了算法的总结与展望。

论文目录

  • 内容提要
  • 第1章 绪论
  • 1.1 本文的背景及目的
  • 1.2 本文组织
  • 第2章 数据库中的知识发现
  • 2.1 引言
  • 2.2 数据库中的知识发现(KDD)
  • 2.2.1 KDD的定义
  • 2.2.2 KDD的处理过程
  • 2.3 知识发现的核心--数据挖掘
  • 第3章 数据离散化
  • 3.1 数据离散化介绍
  • 3.1.1 数据离散化的重要性
  • 3.1.2 数据离散化算法的任务
  • 3.1.3 数据离散化算法的评价标准
  • 3.2 数据离散化算法
  • 3.2.1 离散化算法的发展
  • 3.2.2 离散化算法的分类
  • 3.2.3 几种典型的离散化算法
  • 3.3 小结
  • 第4章 粗糙集理论及其应用
  • 4.1 引言
  • 4.2 粗糙集理论的一些基本概念
  • 4.2.1 知识的含义
  • 4.2.2 不可分辨关系与基本集
  • 4.3 粗糙集理论的特点
  • 4.3.1 粗糙集是一种软计算方法
  • 4.3.2 粗糙集理论的特点
  • 4.4 粗糙集理论的应用
  • 4.4.1 人工神经网络训练样本集化简
  • 4.4.2 控制算法获取
  • 4.4.3 决策支持系统
  • 4.4.4 从数据库中发现知识
  • 4.5 小结
  • 第5章 基于信息熵的粗糙集离散化算法
  • 5.1 信息系统
  • 5.1.1 知识的分类概念
  • 5.1.2 决策表
  • 5.2 信息熵
  • 5.2.1 信息熵历史与发展
  • 5.2.2 信息熵的定义和性质
  • 5.2.4 小结
  • 5.3 一种基于信息熵的粗糙集离散化算法
  • 5.3.1 粗糙集与离散化问题的描述
  • 5.3.2 算法实现
  • 5.3.3 小结
  • 5.4 改进的基于信息熵的粗糙集离散化算法
  • 5.4.1 改进算法的提出
  • 5.4.2 改进算法的实现
  • 5.4.3 改进算法的验证
  • 5.4.4 小结
  • 第6章 实验结果讨论与评价
  • 6.1 实验环境
  • 6.2 实验过程
  • 6.2.1 输入数据
  • 6.2.2 算法仿真实验
  • 6.3 结果讨论与评价
  • 第7章 总结与展望
  • 参考文献
  • 致谢
  • 摘要
  • Abstract
  • 相关论文文献

    • [1].信用评级模型的数据离散化研究[J]. 数学的实践与认识 2019(23)
    • [2].课程推荐预测模型优化方案及数据离散化算法[J]. 计算机系统应用 2020(04)
    • [3].一种改进的快速数据离散化算法[J]. 小型微型计算机系统 2009(02)
    • [4].基于改进χ2统计的数据离散化算法[J]. 大连理工大学学报 2012(03)
    • [5].沃尔什数据离散化方法及在油藏描述中的应用[J]. 石油物探 2008(06)
    • [6].基于类-属性关系依赖度的数据离散化方法[J]. 兰州交通大学学报 2012(03)
    • [7].基于统计相关系数的数据离散化方法[J]. 计算机应用 2011(05)
    • [8].一种基于关联度的区间型数据离散化方法[J]. 广西师范大学学报(自然科学版) 2011(02)
    • [9].基于K-means与ChiMerge算法的数据离散化比较研究[J]. 信息技术 2020(11)
    • [10].基于CACC的连续数据离散化改进算法[J]. 计算机工程 2013(04)
    • [11].基于模糊神经网络的混凝土裂缝成因挖掘[J]. 黑龙江水专学报 2010(03)
    • [12].基于自适应改进粒子群优化的数据离散化算法[J]. 计算机应用 2016(01)
    • [13].海量数据离散化算法的并行设计与实现[J]. 计算机应用与软件 2014(06)
    • [14].一种改进的Apriori算法[J]. 科技信息 2010(20)
    • [15].决策树在安全审计中的应用研究[J]. 科学技术与工程 2011(04)
    • [16].服务于粗糙集信息处理的数据离散化技术[J]. 数字技术与应用 2014(11)
    • [17].一种面向生产调度规则挖掘的数据离散化方法[J]. 计算机集成制造系统 2016(01)
    • [18].基于云模型的智能教学系统中学习质量的评价[J]. 计算机教育 2011(15)
    • [19].基于云模型的短期电价预测[J]. 电网技术 2009(17)
    • [20].基于连续数据量化的声纳传感器数据识别方法[J]. 科学技术与工程 2013(22)
    • [21].脑电波的定性复杂度研究[J]. 计算机仿真 2011(12)
    • [22].一种基于聚类与离散化算法的分类方法[J]. 统计与决策 2010(14)
    • [23].基于ID3算法的股票指标选择[J]. 福建电脑 2014(01)
    • [24].基于区分矩阵的数据离散化算法[J]. 计算机工程与应用 2008(35)
    • [25].基于容差关系的粗糙集理论及其应用研究[J]. 仪器仪表学报 2008(07)
    • [26].基于谱系聚类的粗糙集数据挖掘预处理方法[J]. 计算机工程与应用 2008(02)
    • [27].决策连续形式背景的可视化数据离散化方法[J]. 计算机应用研究 2016(02)
    • [28].个人信用评级模型的指标选择方法[J]. 统计与决策 2014(23)
    • [29].二进制分辨矩阵在连续属性约简中的研究[J]. 计算机与数字工程 2012(01)
    • [30].基于粗糙度的一种分形维数计算方法[J]. 计算机技术与发展 2010(05)

    标签:;  ;  ;  ;  

    基于粗糙集的数据离散化方法研究
    下载Doc文档

    猜你喜欢