杨属种质资源数据挖掘研究

杨属种质资源数据挖掘研究

论文摘要

本文介绍种质资源的概念及其研究、保护的重要意义,在对数据挖掘以及知识发现的一般概念及方法进行分析的基础上,较为全面地总结了用于数据挖掘的聚类分析算法的类型及原理。在理论研究的基础上,通过对不同类型聚类算法的分析和比较,选取了k-means、k-mediods、FCM、CURE、SOM、GA等涉及划分方法、模糊方法、层次方法、人工智能和机器学习方法的6种主要聚类算法进行深入研究,并通过系统分析和设计、采用面向对象的程序设计方法应用C#语言编程实现,最终形成了一个较为通用的、集成多种方法的聚类分析软件系统。本文还对开发的软件进行了有效性测试,研究了聚类有效性评价函数。通过对二维随机数据点的聚类测试表明,程序能够满足一般情况下多维数据聚类要求,上述各聚类算法聚类是有效的,SD聚类有效性评价指标是科学有效的。研究发现:SOM自组织神经元网络相比其他算法效率更高、结果更稳定、效果良好,极具进一步深入研究的价值;SD有效性指标不仅可以用来评价聚类效果的好坏,而且可用于指导最佳聚类数的确定,具有进一步深入研究的价值。最后,本研究利用先期研究成果——基于聚类分析的数据挖掘软件系统——对杨属150个无性系的叶片因子数据进行了聚类分析,探索了杨属种质资源数据挖掘方法,初步完成了数据挖掘,抽取了部分典型的“类知识”,并讨论了“类知识”在遗传育种及良种繁育研究领域可能的应用,研究总体上取得了预期效果。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.1.1 研究的背景和现状
  • 1.1.2 研究的目的和意义
  • 1.1.3 研究的发展趋势
  • 1.2 杨属种质资源的研究及利用
  • 1.2.1 种质资源的概念及价值
  • 1.2.2 遗传多样性研究及其意义
  • 1.2.3 林木遗传育种及良种繁育研究
  • 1.2.4 杨属种质资源的研究及利用
  • 1.3 数据挖掘和知识发现
  • 1.3.1 数据挖掘的概念和起源
  • 1.3.2 数据挖掘的功能
  • 1.3.3 数据挖掘的技术和方法
  • 1.3.4 数据挖掘的应用
  • 1.4 研究内容和方法
  • 1.4.1 研究的主要内容
  • 1.4.2 研究方法和技术路线
  • 1.4.3 研究的预期结果
  • 2 用于数据挖掘的聚类算法
  • 2.1 聚类分析概述
  • 2.1.1 聚类的概念
  • 2.1.2 聚类分析在数据挖掘中的应用
  • 2.2 数学背景知识
  • 2.2.1 样品与指标
  • 2.2.2 距离量度
  • 2.2.3 相似量度
  • 2.3 划分聚类算法
  • 2.3.1 基本原理及评价函数
  • 2.3.2 k均值算法
  • 2.3.3 k中值算法
  • 2.3.4 其他划分聚类算法
  • 2.4 层次聚类算法
  • 2.4.1 AGNES算法
  • 2.4.2 DIANA算法
  • 2.4.3 其它层次聚类算法
  • 2.5 密度聚类方法
  • 2.5.1 DBSCAN算法
  • 2.5.2 OPTICS算法
  • 2.6 人工智能方法
  • 2.6.1 人工智能及机器学习
  • 2.6.2 FCM算法
  • 2.6.3 SOM自组织神经元网络
  • 2.6.4 遗传算法
  • 2.7 小结
  • 3.聚类分析系统的设计与实现
  • 3.1 系统分析与设计
  • 3.1.1 系统分析
  • 3.1.2 系统设计
  • 3.2 系统实现的技术基础
  • 3.2.1 Microsoft.Net Framework
  • 3.2.2 C#程序设计语言
  • 3.3 聚类算法的分析与实现
  • 3.3.1 算法的总体设计
  • 3.3.2 k-means算法的设计与实现
  • 3.3.3 k-mediods算法的设计与实现
  • 3.3.4 FCM算法的设计与实现
  • 3.3.5 CURE算法的设计与实现
  • 3.3.6 SOM神经网络的设计与实现
  • 3.3.7 遗传聚类算法的设计与实现
  • 3.3.8 遗传聚类算法的k-mediods优化
  • 3.4 系统的总体实现
  • 3.4.1 计算数据的离散系数
  • 3.4.2 系统的界面及菜单
  • 3.4.3 简单的聚类操作实例
  • 3.5 小结
  • 4 数据挖掘聚类算法的评价与测试
  • 4.1 聚类的评价
  • 4.1.1 聚类有效性函数
  • 4.1.2 聚类有效性评价
  • 4.2 测试方法
  • 4.2.1 测试的方法
  • 4.2.2 测试数据的来源
  • 4.2.3 测试结果的比较
  • 4.2.4 聚类测试的软硬件环境
  • 4.3 聚类算法测试
  • 4.3.1 聚类类别数k的确定
  • 4.3.2 k-means算法聚类测试
  • 4.3.3 k-mediods算法聚类测试
  • 4.3.4 FCM算法聚类测试
  • 4.3.5 CURE算法聚类测试
  • 4.3.6 遗传算法聚类测试
  • 4.3.7 自组织神经元网络聚类测试
  • 4.4 算法的性能分析
  • 4.4.1 不同算法的比较分析
  • 4.4.2 聚类算法特征及改进措施
  • 4.5 小结
  • 5 基于聚类分析的杨属无性系叶片数据挖掘
  • 5.1 实验数据和目标
  • 5.1.1 数据来源和概况
  • 5.1.2 实验目标
  • 5.2 叶片数据的聚类分析
  • 5.2.1 数据分析的相关约定
  • 5.2.2 计算离散系数
  • 5.2.3 SOM神经网络考察数据分布状况
  • 5.2.4 最佳聚类数目的确定
  • 5.2.5 最佳聚类数情况下的聚类及结果
  • 5.2.6 不同聚类数情况聚类分析
  • 5.3 基于聚类分析的数据挖掘与知识发现
  • 5.3.1 数据挖掘的方法
  • 5.3.2 "原子簇"的发掘
  • 5.3.3 孤立点的信息价值
  • 5.3.4 发掘的部分知识归纳
  • 5.4 小结
  • 6 研究成果与展望
  • 6.1 研究成果
  • 6.2 研究的特点
  • 6.3 存在的问题及改进
  • 参考文献
  • 附录
  • 附录1 部分核心算法实现代码
  • 代码1 聚类算法基类代码结构
  • 代码2 k-means算法代码结构
  • 代码3 k-mediods算法代码结构
  • 代码4 FCM算法代码结构
  • 代码5 CURE算法代码结构
  • 代码6 SOM自组织神经元网络代码结构
  • 代码7 遗传算法GA代码结构
  • 附录2 数据分析结果表格
  • 表1 叶片原始数据离散系数
  • 表2 聚类数从10变为9时的聚类变化情况
  • 表3 聚类数从9变为8时的聚类变化情况
  • 表4 聚类数从8变为7时的聚类变化情况
  • 表5 CURE算法聚类10类
  • 表6 CURE算法聚类3类
  • 个人简介
  • 导师简介
  • 获得成果目录清单
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    杨属种质资源数据挖掘研究
    下载Doc文档

    猜你喜欢