论文摘要
本文介绍种质资源的概念及其研究、保护的重要意义,在对数据挖掘以及知识发现的一般概念及方法进行分析的基础上,较为全面地总结了用于数据挖掘的聚类分析算法的类型及原理。在理论研究的基础上,通过对不同类型聚类算法的分析和比较,选取了k-means、k-mediods、FCM、CURE、SOM、GA等涉及划分方法、模糊方法、层次方法、人工智能和机器学习方法的6种主要聚类算法进行深入研究,并通过系统分析和设计、采用面向对象的程序设计方法应用C#语言编程实现,最终形成了一个较为通用的、集成多种方法的聚类分析软件系统。本文还对开发的软件进行了有效性测试,研究了聚类有效性评价函数。通过对二维随机数据点的聚类测试表明,程序能够满足一般情况下多维数据聚类要求,上述各聚类算法聚类是有效的,SD聚类有效性评价指标是科学有效的。研究发现:SOM自组织神经元网络相比其他算法效率更高、结果更稳定、效果良好,极具进一步深入研究的价值;SD有效性指标不仅可以用来评价聚类效果的好坏,而且可用于指导最佳聚类数的确定,具有进一步深入研究的价值。最后,本研究利用先期研究成果——基于聚类分析的数据挖掘软件系统——对杨属150个无性系的叶片因子数据进行了聚类分析,探索了杨属种质资源数据挖掘方法,初步完成了数据挖掘,抽取了部分典型的“类知识”,并讨论了“类知识”在遗传育种及良种繁育研究领域可能的应用,研究总体上取得了预期效果。
论文目录
摘要ABSTRACT1 绪论1.1 研究背景1.1.1 研究的背景和现状1.1.2 研究的目的和意义1.1.3 研究的发展趋势1.2 杨属种质资源的研究及利用1.2.1 种质资源的概念及价值1.2.2 遗传多样性研究及其意义1.2.3 林木遗传育种及良种繁育研究1.2.4 杨属种质资源的研究及利用1.3 数据挖掘和知识发现1.3.1 数据挖掘的概念和起源1.3.2 数据挖掘的功能1.3.3 数据挖掘的技术和方法1.3.4 数据挖掘的应用1.4 研究内容和方法1.4.1 研究的主要内容1.4.2 研究方法和技术路线1.4.3 研究的预期结果2 用于数据挖掘的聚类算法2.1 聚类分析概述2.1.1 聚类的概念2.1.2 聚类分析在数据挖掘中的应用2.2 数学背景知识2.2.1 样品与指标2.2.2 距离量度2.2.3 相似量度2.3 划分聚类算法2.3.1 基本原理及评价函数2.3.2 k均值算法2.3.3 k中值算法2.3.4 其他划分聚类算法2.4 层次聚类算法2.4.1 AGNES算法2.4.2 DIANA算法2.4.3 其它层次聚类算法2.5 密度聚类方法2.5.1 DBSCAN算法2.5.2 OPTICS算法2.6 人工智能方法2.6.1 人工智能及机器学习2.6.2 FCM算法2.6.3 SOM自组织神经元网络2.6.4 遗传算法2.7 小结3.聚类分析系统的设计与实现3.1 系统分析与设计3.1.1 系统分析3.1.2 系统设计3.2 系统实现的技术基础3.2.1 Microsoft.Net Framework3.2.2 C#程序设计语言3.3 聚类算法的分析与实现3.3.1 算法的总体设计3.3.2 k-means算法的设计与实现3.3.3 k-mediods算法的设计与实现3.3.4 FCM算法的设计与实现3.3.5 CURE算法的设计与实现3.3.6 SOM神经网络的设计与实现3.3.7 遗传聚类算法的设计与实现3.3.8 遗传聚类算法的k-mediods优化3.4 系统的总体实现3.4.1 计算数据的离散系数3.4.2 系统的界面及菜单3.4.3 简单的聚类操作实例3.5 小结4 数据挖掘聚类算法的评价与测试4.1 聚类的评价4.1.1 聚类有效性函数4.1.2 聚类有效性评价4.2 测试方法4.2.1 测试的方法4.2.2 测试数据的来源4.2.3 测试结果的比较4.2.4 聚类测试的软硬件环境4.3 聚类算法测试4.3.1 聚类类别数k的确定4.3.2 k-means算法聚类测试4.3.3 k-mediods算法聚类测试4.3.4 FCM算法聚类测试4.3.5 CURE算法聚类测试4.3.6 遗传算法聚类测试4.3.7 自组织神经元网络聚类测试4.4 算法的性能分析4.4.1 不同算法的比较分析4.4.2 聚类算法特征及改进措施4.5 小结5 基于聚类分析的杨属无性系叶片数据挖掘5.1 实验数据和目标5.1.1 数据来源和概况5.1.2 实验目标5.2 叶片数据的聚类分析5.2.1 数据分析的相关约定5.2.2 计算离散系数5.2.3 SOM神经网络考察数据分布状况5.2.4 最佳聚类数目的确定5.2.5 最佳聚类数情况下的聚类及结果5.2.6 不同聚类数情况聚类分析5.3 基于聚类分析的数据挖掘与知识发现5.3.1 数据挖掘的方法5.3.2 "原子簇"的发掘5.3.3 孤立点的信息价值5.3.4 发掘的部分知识归纳5.4 小结6 研究成果与展望6.1 研究成果6.2 研究的特点6.3 存在的问题及改进参考文献附录附录1 部分核心算法实现代码代码1 聚类算法基类代码结构代码2 k-means算法代码结构代码3 k-mediods算法代码结构代码4 FCM算法代码结构代码5 CURE算法代码结构代码6 SOM自组织神经元网络代码结构代码7 遗传算法GA代码结构附录2 数据分析结果表格表1 叶片原始数据离散系数表2 聚类数从10变为9时的聚类变化情况表3 聚类数从9变为8时的聚类变化情况表4 聚类数从8变为7时的聚类变化情况表5 CURE算法聚类10类表6 CURE算法聚类3类个人简介导师简介获得成果目录清单致谢
相关论文文献
标签:杨属种质资源论文; 数据挖掘论文; 聚类论文; 算法论文; 有效性评价论文; 语言论文;