论文摘要
基因芯片技术是后基因组时代功能基因组研究的主要工具。由于采用了高效的并行DNA杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是基因芯片数据分析中使用广泛的一类方法。基因芯片实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到生物医学研究中的各个领域。本文主要研究的是基于基因芯片的聚类算法的研究。在基因芯片数据的研究中,常用的聚类算法有分层聚类(Hierarchical clustering)、K—均值聚类(K-means clustering)、自组织图谱SOM(self organizing map)和PCA(principle component analysis)四种,并且在现有算法的基础上提出了一种性能更加完善的改进算法——基于多维伪F统计量的动态K—均值聚类算法。在基因芯片数据的聚类分析应用中,本文对这五个算法分别进行了实现,直观的表达了五种算法下的聚类结果。并进一步根据基因数据研究中常见的数据集在这五个算法下的聚类结果对各算法的性能进行了分析与比较。