论文摘要
随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的庞大的分子序列数据,对这些序列数据进行科学的分析和处理推动了生物信息学的发展。序列相似性分析是生物信息学的基础,通过相似性分析获得的大量序列信息可以用来推断基因的结构、功能和进化关系,因此基因数据的相似性分析方法研究已成为生物信息学领域中一个非常重要的研究课题。论文在综述基因数据表示以及相似性分析方法研究现状的基础上,对聚类分析方法、序列相似度度量方法、基因数据的空间表示和基于空间表示的相似性分析方法进行了系统研究。本文取得的研究成果主要有:1.提出了一种基于多维伪F统计量的基因表达动态聚类分析方法。该算法可动态地调整聚类个数,根据多维伪F统计量获得最佳聚类数目,实验结果表明该算法聚类质量较好。针对基因微阵列数据缺失值严重影响聚类结果,本文利用模糊C-均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C-均值的填充算法FCMimpute,实验结果表明,FCMimpute填充在处理缺失值问题上是可行的、有效的,并且其填充性能表现尤为优越。2.提出了一种基于比对相似度动态矩阵的聚类算法。在DNA基因序列方面,本文研究分析了基于图BAG聚类算法,给出了一种cutoff初始值、最小长度阀值和分割/合并类的确定方法,提出基于比对相似度动态矩阵的聚类算法。实验结果表明该算法具有较好的聚类正确率。3.提出一种基于双重核苷酸出现频率的序列相似度度量方法。针对大量DNA多序列比对计算复杂问题,给出了DNA序列的相邻双重核苷的分类,通过序列的数字特征描述序列,给出了一种基于双重核苷酸出现频率的序列相似度度量方法,可有效地表示序列的相似度,且计算简单。4.提出了一种DNA序列图形表示,定义了一个序列特征参数,给出了可凝聚层次聚类的进化树构建算法。针对DNA序列的图形表示存在退化现象,本文提出一种3D曲线表示法—N曲线,证明了N曲线中不存在环和退化现象,且符合DNA序列的对称性;定义了一个新的序列特征参数Zinv,该特征参数计算简单且非常接近于特征值λ;根据DNA序列三维图形表示,提出一种基于可凝聚层次聚类的进化树构建算法,实验结果表明了该算法的有效性。5.提出了RNA二级结构的2D、3D、4D空间表示方法,对RNA二级结构进行了相似性分析。针对RNA二级结构表示法中主要的高复杂性和退化问题,本文提出了RNA二级结构的2D、3D、4D空间表示方法,并证明了该表示法的有效性,采用矩阵不变量对RNA二级结构进行了相似性分析,通过不同物种的RNA二级结构的相似性/相异性比较实验,表明了该方法的有效性。6.提出了一种蛋白质序列的6D表示,定义了一种蛋白质组的相似性度量方法。根据氨基酸的分类提出蛋白质序列的6维表示方法,并获得了一些数值特征,给出了蛋白质序列的特征构造方法,并根据提取的特征参数定义蛋白质组的相似性度量方法并构建系统发育树,与现有的构建进化树方法不同的是,该方法不需要多序列比对,实验结果表明了该方法的有效性。
论文目录
摘要Abstract第1章 绪 论1.1 项目来源1.2 研究背景与意义1.3 序列相似性分析方法1.4 本文主要工作1.5 本文结构组织第2章 基因数据相似性分析方法2.1 基因数据表示方法2.1.1 基因微阵列数据2.1.2 基因序列数据2.1.3 基因序列的图形表示2.2 序列比对方法2.2.1 双序列比对算法2.2.2 多序列比对算法2.3 生物信息处理中的聚类技术2.3.1 K-均值聚类2.3.2 模糊C-均值聚类2.3.3 主成分分析2.3.4 自组织图聚类2.3.5 层次聚类2.4 基于矩阵不变量的相似性比较方法2.4.1 矩阵的构造2.4.2 矩阵不变量2.4.3 矩阵不变量用于序列相似性比较的一般方法2.5 本章小结第3章 DNA微阵列数据相似性分析中的聚类算法研究3.1 基因微阵列缺失数据填充方法研究现状3.2 模糊C均值缺失值填充算法3.2.1 模糊权重指数3.2.2 基于马氏距离的模糊C-均值聚类算法3.2.3 聚类数目3.2.4 缺失值填充3.2.5 算法描述3.2.6 实验结果与分析3.3 基于多维伪F统计量的基因微阵列数据动态聚类算法3.3.1 相关知识3.3.2 基于多维伪F统计量的动态K-均值聚类算法3.3.3 实验结果与分析3.4 本章小结第4章 DNA序列数据的相似性分析方法研究4.1 基于比对相似度动态矩阵聚类算法4.1.1 基于图BAG的聚类算法4.1.2 cutoff初始值的确定4.1.3 回归精练类4.1.4 算法描述4.1.5 实验和分析4.2 基于双重核苷酸分析的序列相似度分析4.2.1 双重核苷酸出现频率4.2.2 序列相似度4.2.3 实验及分析4.3 本章小结第5章 基于DNA序列图形表示的相似性分析及应用研究5.1 一种无退化的DNA图形表示5.1.1 DNA序列图形表示5.1.2 N曲线的特性5.2 基于图形的序列相似性分析5.2.1 几种矩阵不变量计算方法inv'>5.2.2 基于3D图形的矩阵不变量Zinv5.2.3 矩阵不变量比较5.2.4 基因序列的相似性分析5.2.5 实验结果与分析5.3 基于可凝聚层次聚类的进化树构建算法5.3.1 相关工作5.3.2 基于层次聚类的进化树构建算法5.3.3 实验结果与分析5.4 小结第6章 基于RNA二级结构空间表示的相似性分析6.1 RNA二级结构表示方法6.1.1 RNA二级结构和子结构的定义6.1.2 RNA二级结构表示方法6.2 一个4D表示及相似性分析6.2.1 RNA二级结构的4D表示6.2.2 4D表示的特性6.2.3 基于4D表示的RNA二级结构的相似性分析6.3 一个3D表示及相似性分析6.3.1 无退化的RNA二级结构的3D图形表示(3DGRR)6.3.2 3DGRR图形的特性6.3.3 基于3DGRR的RNA二级结构的相似性分析6.4 一种无退化的RNA二级结构2D表示及其相似性分析6.4.1 无退化的RNA二级结构的2D图形表示(2DGRR)6.4.2 2DGRR的特性6.4.3 基于2DGRR的RNA二级结构的相似性分析6.5 本章小结第7章 基于蛋白质序列6D表示的相似性分析7.1 蛋白质序列的6D表示及性质7.1.1 蛋白质序列的6D表示7.1.2 6D表示特性7.2 蛋白质组的系统发育树的构建7.2.1 蛋白质组的矩阵表示7.2.2 蛋白质组的相似性度量方法7.2.3 系统发育树的构建7.3 本章小结结论参考文献致谢附录A 攻读学位期间所发表的学术论文目录附录B 攻读学位期间主持与参与的项目
相关论文文献
标签:相似性分析论文; 聚类分析论文; 空间表示论文; 进化树论文; 序列论文; 蛋白质序列论文; 蛋白质组论文;