基因表达数据聚类分析算法研究和应用

基因表达数据聚类分析算法研究和应用

论文摘要

随着基因芯片技术的广泛应用,产生了海量的基因表达数据。如何分析和处理这些数据,从中提取有用的生物学或医学信息,是基因芯片技术应用的关键和难点,其研究已成为后基因组时代的热点之一。聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。本文针对基因表达数据聚类分析中聚类算法和参数的选择、聚类结果的有效性评价和类数估计等具体问题,主要工作和创新点如下:1.首次采用具有外部标准的基因表达数据集,研究了基因聚类分析中层次聚类、K-means聚类和SOMs等最为常用的算法对相似度和数据转换方式的选择,比较了各类算法的性能。结果表明:层次聚类宜以Pearson相关系数为相似度,并对数据进行行标准化转换;K-means聚类和SOMs则宜选择Euclidean距离准则和标准化对数转换的数据。并且,应尽量避免使用单连接层次聚类, K-means聚类与SOMs算法的性能显著优于层次聚类。2.研究了Silhouette指数、Dunn’s指数、Davies-Bouldin指数及FOM测量对基因聚类分析结果的确认能力。结果表明:Silhouette指数和FOM测量能较好地反映聚类算法的性能和聚类结果的质量,Dunn’s指数因其对噪声的高度敏感性不能直接用于基因聚类结果的确认,Davies-Bouldin指数的确认能力好于Dunn’s指数,但偏爱单连接聚类。3.对Silhouette指数、Davies-Bouldin指数、FOM测量等函数的类数估计能力进行了研究。结果表明:Silhouette指数和Davies-Bouldin指数估计确切类数的正确率都比较低,难于实际应用;FOM测量的拐点位置只能粗略估计大致的类数,并含有不确定性和主观性。定义了新的相对Silhouette指数和相对Davies-Bouldin指数,以扩展现有Silhouette指数和Davies-Bouldin指数估计类数的能力。引入了类数估计专用函数-预测强度进行基因聚类分析中类数的估计,提高了类数估计的可靠性。4.针对高分辨率SOMs投影结果难于确定类边界的问题,采用K-means对SOMs训练后的网络单元聚类,实现了SOMs算法与K-means聚类的有机结合。采用SOMs与K-means相结合的聚类方法对酵母二次迁移全基因组表达数据进行了系统分析,得到了表达谱十分相似的基因类,为未知基因的功能预测提供了重要线索。

论文目录

  • 中文摘要
  • 英文摘要
  • 第一章 基因芯片技术简介
  • 1.1 基因芯片技术的产生和发展
  • 1.1.1 基因芯片技术的产生背景
  • 1.1.2 基因芯片技术的国内外研究现状
  • 1.2 基因芯片的原理、分类和意义
  • 1.2.1 基因芯片的原理
  • 1.2.2 基因芯片的分类
  • 1.2.3 基因芯片技术的意义
  • 1.3 基因芯片技术的应用
  • 1.3.1 肿瘤分型及预测
  • 1.3.2 疾病发生机制研究
  • 1.3.3 药物的研究与开发
  • 1.4 本论文的主要内容和结构
  • 第二章 基因表达数据聚类分析
  • 2.1 引言
  • 2.2 基因表达数据分析
  • 2.2.1 基因表达矩阵
  • 2.2.2 基因表达数据预处理
  • 2.2.3 基因表达数据分析的不同层次
  • 2.3 聚类分析
  • 2.3.1 基因表达聚类分析的意义
  • 2.3.2 基因表达聚类分析的研究现状
  • 2.3.3 相似性度量
  • 2.3.4 聚类算法的分类
  • 2.4 基因表达数据
  • 2.4.1 酵母GAL 数据集
  • 2.4.2 酵母细胞周期数据集
  • 2.4.3 酵母孢子化数据集
  • 2.4.4 人血清数据集
  • 2.4.5 鼠中央神经系统发育数据集
  • 第三章 基因聚类分析中常用聚类算法的性能比较和参数选择
  • 3.1 引言
  • 3.2 聚类算法
  • 3.2.1 层次聚类
  • 3.2.2 K-均值聚类
  • 3.2.3 自组织映射
  • 3.3 聚类结果的外部评价
  • 3.3.1 引言
  • 3.3.2 Rand 指数
  • 3.4 三种聚类算法对相似度和数据转换方式的选择
  • 3.4.1 层次聚类对相似度和预处理方法的选择
  • 3.4.2 K-均值聚类对相似度和预处理方法的选择
  • 3.4.3 SOMs 聚类对相似度和预处理方法的选择
  • 3.4.4 标准化对数转换
  • 3.5 聚类算法的选择
  • 3.6 本章小结
  • 第四章 基因聚类分析结果的内部确认
  • 4.1 引言
  • 4.2 内部确认
  • 4.2.1 内部确认的基本理论和一般性意义
  • 4.2.2 内部确认技术的分类
  • 4.3 基因聚类分析结果的内部确认
  • 4.3.1 内部确认函数
  • 4.3.2 对基因聚类结果的确认性能
  • 4.3.3 类数预测
  • 4.4 预测强度
  • 4.4.1 PS 的定义
  • 4.4.2 在基因聚类分析中的应用
  • 4.5 本章小结
  • 第五章 酵母二次迁移实验全基因组表达数据分析
  • 5.1 引言
  • 5.2 酵母二次迁移实验
  • 5.3 数据预处理
  • 5.3.1 基因筛选
  • 5.3.2 数据转换
  • 2150 数据集的聚类分析'>5.4 YDS2150 数据集的聚类分析
  • 5.4.1 类数K 的估计
  • 5.4.2 SOMs 网络结构对聚类质量的影响
  • 5.4.3 SOMs 与K-means 相结合的聚类分析
  • 5.4.4 讨论
  • 5.5 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 发表论文和科研情况说明
  • 附录
  • 致谢
  • 相关论文文献

    • [1].基于阿尔茨海默病的基因表达数据改进的一维聚类方法[J]. 四川师范大学学报(自然科学版) 2015(04)
    • [2].多步骤决策树方法在基因表达数据上的应用研究[J]. 中国卫生统计 2017(01)
    • [3].基于大脑不同区域的阿尔茨海默症基因表达数据分析[J]. 上海交通大学学报 2013(06)
    • [4].癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报(自然科学版) 2010(02)
    • [5].蛋白质网络和基因表达数据与癌症转移的预测[J]. 国际药学研究杂志 2008(02)
    • [6].基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J]. 中国海洋大学学报(自然科学版) 2013(12)
    • [7].基于非负矩阵分解的大脑不同区域基因表达数据分析[J]. 中国生物医学工程学报 2012(06)
    • [8].浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J]. 科技资讯 2011(33)
    • [9].两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类的比较研究[J]. 中国卫生统计 2009(05)
    • [10].基于层级规则树的跨平台基因表达数据分类[J]. 计算机工程 2019(07)
    • [11].基因表达数据横向荟萃分析方法综述[J]. 数理统计与管理 2018(02)
    • [12].基于矩阵分解技术的显著基因提取及基因表达数据分析[J]. 生物医学工程学杂志 2014(03)
    • [13].基因表达数据分析中的特征基因提取[J]. 微计算机信息 2008(09)
    • [14].免疫聚类算法在基因表达数据分析中的应用[J]. 北京邮电大学学报 2010(02)
    • [15].基因表达数据在数据库中的预处理[J]. 电脑知识与技术 2009(16)
    • [16].基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版) 2018(03)
    • [17].基于稀疏极大边界特征的癌症基因表达数据分析[J]. 郑州师范教育 2012(04)
    • [18].基于DE-CStacking集成的基因表达数据分类算法[J]. 小型微型计算机系统 2019(08)
    • [19].从肿瘤基因表达数据挖掘分类规则的研究[J]. 中国生物医学工程学报 2009(05)
    • [20].微阵列基因表达数据的选择及方法[J]. 现代交际 2015(08)
    • [21].基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J]. 计算机应用 2018(05)
    • [22].基因表达数据分类算法及应用探讨[J]. 洛阳理工学院学报(自然科学版) 2014(03)
    • [23].PSO和Cholesky分解的KELM的基因表达数据分类[J]. 中国计量学院学报 2016(02)
    • [24].基于压缩感知的癌症基因表达数据分类[J]. 中国计量学院学报 2012(01)
    • [25].应用于癌症基因表达数据的OMB双向聚类算法[J]. 计算机工程与应用 2011(28)
    • [26].从基因表达数据中挖掘最大的行常量双聚类[J]. 计算机应用研究 2011(12)
    • [27].小波包分解和模糊聚类下的基因表达数据分析[J]. 计算机工程与应用 2009(19)
    • [28].基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J]. 中国科学技术大学学报 2009(08)
    • [29].基于基因表达数据的双聚类分析研究[J]. 河南科技 2018(34)
    • [30].基因表达数据中的局部模式挖掘研究综述[J]. 计算机研究与发展 2018(11)

    标签:;  ;  ;  ;  ;  ;  

    基因表达数据聚类分析算法研究和应用
    下载Doc文档

    猜你喜欢