数据挖掘中基于遗传算法的聚类方法应用研究

数据挖掘中基于遗传算法的聚类方法应用研究

论文摘要

近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。在数据挖掘中,聚类分析也是一种很长用的技术。而聚类技术中K-means聚类分析技术又是最常用的方法。但K-means算法在实际应用中需要用户给出要聚类的数目即k的值,另外,K-means算法在运行时要首先随机产生一个初始聚类中心,然后再对使用这个初始聚类中心得到的聚类结果进行不断调整,而这个聚类结果在很大程度上受初始聚类中心选取的影响。为了消除K-means聚类算法对于用户输入k值的依赖,也为了减小K-means聚类算法受初始聚类中心的影响,本文引入了遗传算法。本文的主要工作包括:①介绍分析了聚类算法以及遗传算法。介绍了数据挖掘的相关概念、任务、方法,然后介绍了聚类分析的概念、常见算法以及遗传算法的基本概念、研究现状等,并进行了相应的分析。②结合遗传算法和K-均值算法的优点,提出一种基于遗传算法的k-means聚类算法,并在该算法的基础上提出了改进的遗传聚类算法,该算法根据聚类实际情况采用可变长实数表示聚类中心,并设计新的交叉变异算子以及采用广泛使用的聚类有效性指标DB-Index作为目标函数,不仅较好地解决了K-均值聚类算法中聚类数目难以确定、对初始值敏感及易陷入局部最优等缺陷,而且算法效率及算法的精度较之以往算法有较大提高。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题背景与意义
  • 1.1.1 数据挖掘技术的产生及研究现状
  • 1.1.2 数据挖掘中的聚类
  • 1.1.3 遗传算法与数据挖掘
  • 1.2 研究目标及主要内容
  • 1.3 本文内容的组织和结构
  • 2 数据挖掘技术概述
  • 2.1 引言
  • 2.2 数据挖掘的定义
  • 2.3 数据挖掘的过程
  • 2.3.1 数据取样(Sample)
  • 2.3.2 数据探索(Explore)
  • 2.3.3 数据调整(Modify)
  • 2.3.4 数据分析(Analysis)
  • 2.3.5 结果评价(Assess)
  • 2.4 数据挖掘的目的和分析方法
  • 2.5 数据挖掘的方法和技术
  • 2.6 数据挖掘的应用领域及发展趋势
  • 2.6.1 应用领域
  • 2.6.2 数据挖掘的发展趋势
  • 2.7 本章小结
  • 3 数据聚类及聚类技术
  • 3.1 引言
  • 3.2 聚类的定义
  • 3.3 相似度度量
  • 3.3.1 定义距离的方法
  • 3.3.2 定义相似度的方法
  • 3.4 聚类准则函数
  • 3.5 聚类方法的分类及典型算法
  • 3.5.1 基于划分的方法
  • 3.5.2 基于层次的方法
  • 3.5.3 基于密度的方法
  • 3.5.4 基于网格的方法
  • 3.5.5 基于模型的方法
  • 3.5.6 几种常用算法的性能比较
  • 3.6 聚类挖掘技术的应用及研究方向
  • 3.7 本章小节
  • 4 遗传算法的基本原理及方法
  • 4.1 引言
  • 4.2 遗传算法基础
  • 4.2.1 遗传算法的产生及发展
  • 4.2.2 遗传算法的基本思想和术语
  • 4.2.3 遗传算法的基本特点
  • 4.3 遗传算法的基本要素
  • 4.3.1 染色体编码方法
  • 4.3.2 适应度函数
  • 4.3.3 遗传算子
  • 4.3.4 控制参数选择
  • 4.4 应用流程及算法
  • 4.4.1 遗传算法的应用流程
  • 4.4.2 遗传算法的算法描述
  • 4.5 本章小结
  • 5 基于遗传算法的聚类挖掘应用与实例
  • 5.1 引言
  • 5.2 聚类分析中引入遗传算法的意义
  • 5.3 基于遗传算法的K 均值聚类算法
  • 5.3.1 染色体编码
  • 5.3.2 初始群体的产生
  • 5.3.3 适应度函数的选取
  • 5.3.4 遗传算子
  • 5.3.5 K 均值操作
  • 5.3.6 循环终止条件
  • 5.3.7 算法的设计
  • 5.4 改进的遗传聚类算法
  • 5.4.1 染色体描述和种群初始化
  • 5.4.2 适应度函数
  • 5.4.3 交叉算子
  • 5.4.4 变异算子
  • 5.4.5 算法流程
  • 5.5 实验结果与分析
  • 5.5.1 测试数据集描述
  • 5.5.2 算法测试
  • 5.6 应用实例
  • 5.6.1 数据的预处理
  • 5.6.2 系统功能
  • 5.6.3 算法实现
  • 5.7 本章小结
  • 6 结论
  • 6.1 论文的主要工作
  • 6.2 进一步努力的方向
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  

    数据挖掘中基于遗传算法的聚类方法应用研究
    下载Doc文档

    猜你喜欢