基于聚类算法的基因芯片研究

基于聚类算法的基因芯片研究

论文摘要

基因芯片技术是后基因组时代功能基因组研究的主要工具。由于采用了高效的并行DNA杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作。聚类分析是基因芯片数据分析中使用广泛的一类方法。基因芯片实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到生物医学研究中的各个领域。本文主要研究的是基于基因芯片的聚类算法的研究。在基因芯片数据的研究中,常用的聚类算法有分层聚类(Hierarchical clustering)、K—均值聚类(K-means clustering)、自组织图谱SOM(self organizing map)和PCA(principle component analysis)四种,并且在现有算法的基础上提出了一种性能更加完善的改进算法——基于多维伪F统计量的动态K—均值聚类算法。在基因芯片数据的聚类分析应用中,本文对这五个算法分别进行了实现,直观的表达了五种算法下的聚类结果。并进一步根据基因数据研究中常见的数据集在这五个算法下的聚类结果对各算法的性能进行了分析与比较。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.2 生物信息学概述
  • 1.3 基因芯片概述
  • 1.4 本文主要研究内容
  • 第二章 聚类算法综述
  • 2.1 聚类及聚类分析的定义
  • 2.2 聚类分析中的距离表示
  • 2.3 主要聚类算法的分类
  • 2.4 数据挖掘对聚类算法的要求
  • 2.5 聚类算法的应用
  • 2.6 聚类算法的发展趋势
  • 2.7 本章小结
  • 第三章 基于基因芯片的聚类算法研究
  • 3.1 基因表达数据
  • 3.2 基因表达数据的聚类分析算法研究
  • 3.3 聚类算法的改进
  • 3.4 本章小结
  • 第四章 基因表达数据的聚类分析模型设计与实现
  • 4.1 系统的体系结构
  • 4.2 技术实现
  • 4.3 实验数据
  • 4.4 各算法的实现
  • 4.5 本章小结
  • 第五章 基因表达数据的聚类分析
  • 5.1 基因表达数据质量评价体系
  • 5.2 数据集举例
  • 5.3 性能分析
  • 5.4 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基于聚类算法的基因芯片研究
    下载Doc文档

    猜你喜欢