基因数据相似性分析方法研究

基因数据相似性分析方法研究

论文摘要

随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的庞大的分子序列数据,对这些序列数据进行科学的分析和处理推动了生物信息学的发展。序列相似性分析是生物信息学的基础,通过相似性分析获得的大量序列信息可以用来推断基因的结构、功能和进化关系,因此基因数据的相似性分析方法研究已成为生物信息学领域中一个非常重要的研究课题。论文在综述基因数据表示以及相似性分析方法研究现状的基础上,对聚类分析方法、序列相似度度量方法、基因数据的空间表示和基于空间表示的相似性分析方法进行了系统研究。本文取得的研究成果主要有:1.提出了一种基于多维伪F统计量的基因表达动态聚类分析方法。该算法可动态地调整聚类个数,根据多维伪F统计量获得最佳聚类数目,实验结果表明该算法聚类质量较好。针对基因微阵列数据缺失值严重影响聚类结果,本文利用模糊C-均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C-均值的填充算法FCMimpute,实验结果表明,FCMimpute填充在处理缺失值问题上是可行的、有效的,并且其填充性能表现尤为优越。2.提出了一种基于比对相似度动态矩阵的聚类算法。在DNA基因序列方面,本文研究分析了基于图BAG聚类算法,给出了一种cutoff初始值、最小长度阀值和分割/合并类的确定方法,提出基于比对相似度动态矩阵的聚类算法。实验结果表明该算法具有较好的聚类正确率。3.提出一种基于双重核苷酸出现频率的序列相似度度量方法。针对大量DNA多序列比对计算复杂问题,给出了DNA序列的相邻双重核苷的分类,通过序列的数字特征描述序列,给出了一种基于双重核苷酸出现频率的序列相似度度量方法,可有效地表示序列的相似度,且计算简单。4.提出了一种DNA序列图形表示,定义了一个序列特征参数,给出了可凝聚层次聚类的进化树构建算法。针对DNA序列的图形表示存在退化现象,本文提出一种3D曲线表示法—N曲线,证明了N曲线中不存在环和退化现象,且符合DNA序列的对称性;定义了一个新的序列特征参数Zinv,该特征参数计算简单且非常接近于特征值λ;根据DNA序列三维图形表示,提出一种基于可凝聚层次聚类的进化树构建算法,实验结果表明了该算法的有效性。5.提出了RNA二级结构的2D、3D、4D空间表示方法,对RNA二级结构进行了相似性分析。针对RNA二级结构表示法中主要的高复杂性和退化问题,本文提出了RNA二级结构的2D、3D、4D空间表示方法,并证明了该表示法的有效性,采用矩阵不变量对RNA二级结构进行了相似性分析,通过不同物种的RNA二级结构的相似性/相异性比较实验,表明了该方法的有效性。6.提出了一种蛋白质序列的6D表示,定义了一种蛋白质组的相似性度量方法。根据氨基酸的分类提出蛋白质序列的6维表示方法,并获得了一些数值特征,给出了蛋白质序列的特征构造方法,并根据提取的特征参数定义蛋白质组的相似性度量方法并构建系统发育树,与现有的构建进化树方法不同的是,该方法不需要多序列比对,实验结果表明了该方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪 论
  • 1.1 项目来源
  • 1.2 研究背景与意义
  • 1.3 序列相似性分析方法
  • 1.4 本文主要工作
  • 1.5 本文结构组织
  • 第2章 基因数据相似性分析方法
  • 2.1 基因数据表示方法
  • 2.1.1 基因微阵列数据
  • 2.1.2 基因序列数据
  • 2.1.3 基因序列的图形表示
  • 2.2 序列比对方法
  • 2.2.1 双序列比对算法
  • 2.2.2 多序列比对算法
  • 2.3 生物信息处理中的聚类技术
  • 2.3.1 K-均值聚类
  • 2.3.2 模糊C-均值聚类
  • 2.3.3 主成分分析
  • 2.3.4 自组织图聚类
  • 2.3.5 层次聚类
  • 2.4 基于矩阵不变量的相似性比较方法
  • 2.4.1 矩阵的构造
  • 2.4.2 矩阵不变量
  • 2.4.3 矩阵不变量用于序列相似性比较的一般方法
  • 2.5 本章小结
  • 第3章 DNA微阵列数据相似性分析中的聚类算法研究
  • 3.1 基因微阵列缺失数据填充方法研究现状
  • 3.2 模糊C均值缺失值填充算法
  • 3.2.1 模糊权重指数
  • 3.2.2 基于马氏距离的模糊C-均值聚类算法
  • 3.2.3 聚类数目
  • 3.2.4 缺失值填充
  • 3.2.5 算法描述
  • 3.2.6 实验结果与分析
  • 3.3 基于多维伪F统计量的基因微阵列数据动态聚类算法
  • 3.3.1 相关知识
  • 3.3.2 基于多维伪F统计量的动态K-均值聚类算法
  • 3.3.3 实验结果与分析
  • 3.4 本章小结
  • 第4章 DNA序列数据的相似性分析方法研究
  • 4.1 基于比对相似度动态矩阵聚类算法
  • 4.1.1 基于图BAG的聚类算法
  • 4.1.2 cutoff初始值的确定
  • 4.1.3 回归精练类
  • 4.1.4 算法描述
  • 4.1.5 实验和分析
  • 4.2 基于双重核苷酸分析的序列相似度分析
  • 4.2.1 双重核苷酸出现频率
  • 4.2.2 序列相似度
  • 4.2.3 实验及分析
  • 4.3 本章小结
  • 第5章 基于DNA序列图形表示的相似性分析及应用研究
  • 5.1 一种无退化的DNA图形表示
  • 5.1.1 DNA序列图形表示
  • 5.1.2 N曲线的特性
  • 5.2 基于图形的序列相似性分析
  • 5.2.1 几种矩阵不变量计算方法
  • inv'>5.2.2 基于3D图形的矩阵不变量Zinv
  • 5.2.3 矩阵不变量比较
  • 5.2.4 基因序列的相似性分析
  • 5.2.5 实验结果与分析
  • 5.3 基于可凝聚层次聚类的进化树构建算法
  • 5.3.1 相关工作
  • 5.3.2 基于层次聚类的进化树构建算法
  • 5.3.3 实验结果与分析
  • 5.4 小结
  • 第6章 基于RNA二级结构空间表示的相似性分析
  • 6.1 RNA二级结构表示方法
  • 6.1.1 RNA二级结构和子结构的定义
  • 6.1.2 RNA二级结构表示方法
  • 6.2 一个4D表示及相似性分析
  • 6.2.1 RNA二级结构的4D表示
  • 6.2.2 4D表示的特性
  • 6.2.3 基于4D表示的RNA二级结构的相似性分析
  • 6.3 一个3D表示及相似性分析
  • 6.3.1 无退化的RNA二级结构的3D图形表示(3DGRR)
  • 6.3.2 3DGRR图形的特性
  • 6.3.3 基于3DGRR的RNA二级结构的相似性分析
  • 6.4 一种无退化的RNA二级结构2D表示及其相似性分析
  • 6.4.1 无退化的RNA二级结构的2D图形表示(2DGRR)
  • 6.4.2 2DGRR的特性
  • 6.4.3 基于2DGRR的RNA二级结构的相似性分析
  • 6.5 本章小结
  • 第7章 基于蛋白质序列6D表示的相似性分析
  • 7.1 蛋白质序列的6D表示及性质
  • 7.1.1 蛋白质序列的6D表示
  • 7.1.2 6D表示特性
  • 7.2 蛋白质组的系统发育树的构建
  • 7.2.1 蛋白质组的矩阵表示
  • 7.2.2 蛋白质组的相似性度量方法
  • 7.2.3 系统发育树的构建
  • 7.3 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文目录
  • 附录B 攻读学位期间主持与参与的项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基因数据相似性分析方法研究
    下载Doc文档

    猜你喜欢