基于遗传算法的基因芯片数据聚类研究

基于遗传算法的基因芯片数据聚类研究

论文摘要

近年来基因芯片技术被广泛应用于生命科学及相关的各个领域,它推动了生物学研究的发展。基因表达的模式可以提供有关细胞状态的重要信息,基因芯片技术可以用一个样本同时测量数千个基因的表达情况。聚类分析技术在分析基因芯片表达数据中扮演了重要的角色。在基因表达数据聚类分析中,使用不同的参数,得到的类结构可能显著不同,k-means算法应用较为广泛。本文首先以k-means算法为基准,对常见的两种类型的基因芯片数据适用的预处理方式和相似度选取进行了研究和分析,结果显示:对于时间序列数据集,对数化转换后,相似度选择协方差所得结果最好;对于非时间序列数据集,对数转化最好,相似度选取欧氏距离、平方欧氏距离、马氏距离都比较好。由于k-means算法对于初始值非常敏感且易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的算法,它具有隐含并行性和对全局信息的有效利用能力,将两者结合产生了基于遗传算法的k-means聚类算法---GKA算法,它既能够发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,更好地解决聚类问题。本文结合参数研究结果,并将自然进化中的优选思想进一步引入GKA算法,提出了新的基于遗传算法的k-means聚类算法---IKGA算法。将该算法应用于酵母基因表达数据集研究,结果显示IKGA算法极显著(P<0.01)的优于GKA算法和k-means算法。最后将该IKGA算法应用于猪基因表达数据的聚类分析中,结果显示,该算法能很好地避免了初始值对聚类结果的影响,使TWCV值降低,得到了较好的聚类结果。

论文目录

  • 中文摘要
  • ABSTRACT
  • 1.基因芯片数据聚类分析
  • 1.1 引言
  • 1.2 基因表达数据分析
  • 1.2.1 基因表达矩阵
  • 1.2.2 基因表达数据预处理
  • 1.3 聚类分析
  • 1.3.1 常用相似度
  • 1.3.2 常用聚类方法
  • 1.3.3 聚类结果评价
  • 1.4 课题研究的主要内容和文章的组织
  • 2.K-MEANS算法聚类技术分析实验
  • 2.1 k-means算法概述
  • 2.1.1 k-means算法描述
  • 2.1.2 k-means算法伪代码
  • 2.2 材料与方法
  • 2.2.1 基因表达数据集
  • 2.2.2 研究方法
  • 2.2.3 Rand指数
  • 2.3 结果分析与讨论
  • 2.3.1 时间序列的基因表达数据(YCC)
  • 2.3.2 条件相互独立的基因表达数据(GAL)
  • 2.3.3 讨论
  • 3.基于K-MEANS算法的遗传算法
  • 3.1 遗传算法的特点
  • 3.2 遗传算法的基本过程
  • 3.3 基于遗传算法的IKGA聚类算法的提出
  • 3.3.1 目标函数
  • 3.3.2 IKGA算法步骤
  • 3.4 IKGA算法流程图及伪代码
  • 3.4.1 IKGA算法流程图
  • 3.4.2 IKGA算法R语言伪代码
  • 3.5 实验平台和方法
  • 3.5.1 实验平台
  • 3.5.2 实验方法
  • 3.6 IGKA算法性能测试结果与分析
  • 3.6.1 IKGA算法在基因表达数据集GAL上的性能测试
  • 3.6.2 IKGA算法在基因表达数据集CC上的性能测试
  • 3.6.3 IKGA算法在基因表达数据集YCC上的性能测试
  • 3.6.4 实验结果分析
  • 3.7 基于IKGA算法的猪基因表达数据聚类分析
  • 3.7.1 猪基因表达数据集
  • 3.7.2 实验结果分析
  • 4.总结与展望
  • 4.1 本文总结
  • 4.2 未来的工作展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的学术论文:
  • 相关论文文献

    • [1].基因芯片数据库GEO与ArrayExpress的使用及比较分析[J]. 中国现代医学杂志 2014(12)
    • [2].基因芯片数据特征选择法研究[J]. 医学信息学杂志 2012(10)
    • [3].基于小波低频、高频系数的基因芯片数据特征提取比较[J]. 电子制作 2013(12)
    • [4].从时间序列基因芯片数据中挖掘跨事务关联规则[J]. 第三军医大学学报 2008(05)
    • [5].基于小波分析的基因芯片数据特征提取技术及发展趋势[J]. 电子制作 2013(12)
    • [6].基因芯片数据标准化局部加权回归法权函数探究[J]. 浙江大学学报(理学版) 2010(01)
    • [7].人脑发育基因芯片数据的定量关联规则挖掘[J]. 中国现代医学杂志 2008(11)
    • [8].基于小波高频系数基因芯片数据的特征提取[J]. 生物信息学 2011(04)
    • [9].多步骤降维的肿瘤特征基因选择方法[J]. 复旦学报(自然科学版) 2008(04)
    • [10].基于提升小波的基因芯片数据的分类预测[J]. 应用数学与计算数学学报 2014(02)
    • [11].基因芯片数据多尺度分析的y~n曲线模型[J]. 计算机工程 2011(02)
    • [12].基因芯片数据分析方法及其在医学中的应用[J]. 中国医药生物技术 2010(06)
    • [13].降维近似支持向量机基因芯片数据分类器[J]. 重庆大学学报 2011(12)
    • [14].生物信息学方法在基因芯片数据功能分析中的应用[J]. 现代生物医学进展 2009(02)
    • [15].从基因芯片数据快速有效地挖掘共调控基因[J]. 计算机工程与应用 2010(09)
    • [16].Isomap的特点及其在基因芯片数据分析中的应用[J]. 生物信息学 2008(01)
    • [17].基于权值图的基因芯片数据差异双聚类挖掘算法[J]. 计算机应用研究 2011(01)
    • [18].基因芯片数据挖掘与肿瘤分子分型研究[J]. 外科理论与实践 2010(01)
    • [19].羊水干细胞体外培养早期和后期基因表达谱分析[J]. 昆明医科大学学报 2013(05)
    • [20].基于序列、结构和芯片数据的聚类算法[J]. 湖州师范学院学报 2008(02)
    • [21].雄激素非依赖型前列腺癌相关基因的挖掘及生物信息学分析[J]. 临床泌尿外科杂志 2010(04)
    • [22].大鼠脓毒血症相关基因筛选与生物信息学分析[J]. 泸州医学院学报 2013(01)
    • [23].利用人工神经网络识别小圆蓝细胞瘤亚型[J]. 哈尔滨医科大学学报 2010(03)
    • [24].麝香草酚对酿酒酵母表达谱影响的研究[J]. 青岛农业大学学报(自然科学版) 2009(03)

    标签:;  ;  ;  ;  

    基于遗传算法的基因芯片数据聚类研究
    下载Doc文档

    猜你喜欢