论文摘要
微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。目前,各种不同的数据挖掘方法被应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进行分类研究和解释。聚类分析能将功能相关的基因按照表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。由于微阵列基因表达数据具有维数高、样本小、非线性的特点,本文从基因和样本两个方面对其进行了分析,包括对基因功能的聚类分析以及肿瘤分型、分类的研究。取得的主要研究成果如下:1.基因表达的改变往往伴随着基因功能的改变,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。本文从基因变化的趋势出发,构造了新的模糊相似关系矩阵,提出了改进的基于模糊相似关系的聚类算法,并以此算法计算模糊C均值(Fuzzy C Means,FCM)的初始聚类中心来对基因表达谱进行聚类分析,实验结果表明该算法不仅克服了FCM算法对初值敏感的缺点,而且能够发现一些表达模式变化趋势相似的共调控基因。2.对样本聚类可以发现未知的疾病亚型。由于在实验过程中,会引入大量的噪声,因此在进行聚类分析前需要先对基因表达谱数据进行降噪处理。本文是在小波去噪的基础上,将改进的FCM算法模型用于白血病基因表达谱样本分型。聚类结果表明:该方法能得到高准确度的样本分型结果。3.由于基因表达数据维数高、样本少,使得聚类效率较低,聚类准确度也相对较小。本文从降维的角度考虑,提出了基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM聚类算法对挑选出的特征基因集进行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。
论文目录
摘要Abstract第一章 绪论1.1 课题背景1.1.1 基因芯片介绍1.1.2 微阵列技术的生物学背景1.1.3 微阵列基因表达数据1.1.4 基因表达数据分析1.2 基因表达数据的研究现状1.3 课题研究的目的和意义1.4 论文的研究内容及安排1.4.1 主要研究内容1.4.2 结构安排第二章 聚类分析概述2.1 引言2.2 聚类分析的应用要求2.3 基础知识2.3.1 数据标准化2.3.2 距离与相似系数2.3.3 聚类的特征与聚类间的距离2.4 主要聚类方法2.4.1 划分的方法2.4.2 层次方法2.4.3 自组织映射(SOMs)2.5 模糊C 均值聚类算法2.6 本章小结第三章 基于新的模糊相似关系的基因聚类算法研究3.1 引言3.2 基于相似测度的新相关系数3.2.1 相关系数3.2.2 特征相似测度-最大信息压缩指数3.2.3 联合相似测度3.3 改进的基于模糊相似关系的聚类算法描述3.3.1 基本定义3.3.2 算法思想3.4 FCM 聚类初始化算法流程3.5 实验及结果分析3.5.1 实验数据3.5.2 数据预处理3.5.3 结果分析3.6 本章小结第四章 基于小波去噪和改进的FCM 算法的基因表达数据分析4.1 引言4.2 小波变换降噪处理4.3 加权似然模糊聚类(WPFCM)4.3.1 WPFCM 聚类算法4.3.2 基于有效性测度的基因表达数据的WPFCM 模型4.4 实验仿真4.4.1 数据来源4.4.2 实验结果分析4.5 本章小结第五章 基于代表熵的双向聚类算法研究5.1 引言5.2 双向聚类算法模型5.2.1 基因聚类-SOM 算法5.2.2 代表基因的挑选5.2.3 代表熵5.2.4 样本聚类-FCM 算法5.3 双向聚类算法描述5.4 实验分析5.4.1 实验数据来源5.4.2 实验结果与分析5.5 本章小结第六章 总结与展望6.1 本文的工作总结6.2 今后工作展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:微阵列论文; 基因表达数据论文; 聚类分析论文; 模糊均值论文; 自组织映射论文; 代表熵论文;