论文摘要
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中,聚类分析是一项重要的研究课题。与分类不同,聚类的目标是在没有任何先验知识的前提下,根据数据的相似性将数据聚合成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大,因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。遗传算法是基于生物进化的概念设计了一系列过程来达到优化的目的。这些过程包括:基因组合、交叉、变异、自然选择。在这些过程中,通过“优胜劣汰”的原则来淘汰掉解较差的基因,使得解朝着好的方向发展。遗传算法从一组初始可行解出发在只需要目标函数这一信息的条件下实现对可行域的全局高效搜索并以概率1收敛到全局最优解,这种良好的特性使得遗传算法成为组合优化和函数优化的有力工具,并成为计算智能领域的研究热点.粗糙集理论是一种刻画不确定性和不完整性知识的数学工具,由波兰数学家在上世纪八十年代初首先提出的。粗糙集理论善于分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。在数据挖掘领域,粗糙集最初主要用于分类,而今有关粗糙集的研究已深入到该领域的各个方面。目前所用的聚类方法大多是基于对数值属性进行处理的,并且对数值进行处理的方法比较多。而聚类算法中针对符号属性的数据处理则比较困难,往往都是使用概念聚类方法,或者将符号属性转化为数值属性的方法。但是前者过于复杂也不成熟,后者对于数据的符号属性选择有局限性。所以目前大部分的聚类算法都面向数值属性,针对符号属性的则比较少。所以本文提出的算法主要是研究符号属性的数据。粗糙集理论适合用于数据之间(精确的或近似的)依赖关系发现、评价某一分类(属性)的重要性、数据相似或差异发现。经典粗糙集模型比较好的解决了符号型数据的机器学习问题,尤其是符号数据的特征选择、属性约简和规则归纳问题。所以说粗糙集特别适合于处理符号属性的数据。在提高聚类算法的性能方面,遗传聚类算法可较好地解决聚类时的优化问题以及满足优化目标的多样性需求。适应度是遗传算法得以进行下去的关键。由于有了适应度,个体之间才存在竞争。遗传算法的目标函数及适应度函数定义具有很大的灵活性,可根据需要进行定义。遗传算法是可调节的、鲁棒的、高效率的随机搜索算法,它具有的并行性、易于和其它模型结合等性质,适用于数据挖掘,但遗传算法较复杂,容易收敛于局部极小值。粗糙集不需要给出数据之外的额外信息,可以简化输入信息的表达空间,算法简单,易于操作,粗糙集处理的对象是类似二维关系表的信息表,也适用于数据挖掘。遗传算法与粗糙集理论具有优势互补的特点,可以将两者结合应用到聚类中。本文将粗糙集思想与遗传算法结合,提出了一种新的聚类方法。聚类算法质量的一个要求就是高类内相似度、低类间相似度,所以在本文中应用类内相似度和类间相似度来定义遗传算法的适应度函数。由于粗糙集的广义近似空间提出了类内不可区分度和类间不可区分度,所以可以将此思想应用到遗传算法中的适应度函数定义中。本文提出了一种新的面向符号属性的聚类算法(RNGACA)。该算法对于每个不同的值,采用自顶向下的分裂式层次聚类策略,利用RAGA算法对数据集进行逐层二分,直到达到预先指定的聚类的个数,然后输出聚类结果。RAGA算法则是将粗糙集思想和自适应遗传算法结合,对数据进行二分。为了验证该算法,做了4部分实验,第一部分是对4组实验数据进行测试,4组数据均是取自UCI机器学习数据库,该部分以聚类准确率为衡量准则,将RAGACA算法同其他3种算法进行比较;第二部分实验测试是根据基于F-measure方法的测试结果来衡量RAGACA算法和其他两种算法;第三部分是分析RAGACA算法中RAGA算法的收敛性,通过比较RAGA算法与使用标准遗传算法和使用普通自适应遗传算法来分析它们的收敛性;第四部分是分析RAGACA算法的时间复杂度和空间复杂度。通过这四部分实验,可以分析出RAGACA对符号属性数据进行聚类的可行性,以及拥有较高的准确率和收敛性,另外时间复杂度和空间复杂度也并不比其他算法差。
论文目录
相关论文文献
- [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
- [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
- [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
- [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
- [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
- [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
- [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
- [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
- [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
- [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
- [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
- [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
- [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
- [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
- [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
- [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
- [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
- [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
- [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
- [20].浅析数据挖掘[J]. 内江科技 2020(06)
- [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
- [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
- [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
- [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
- [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
- [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
- [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
- [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
- [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
- [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)