基于PCA+LLE组合降维的基因组进化研究

基于PCA+LLE组合降维的基因组进化研究

论文摘要

数据绛维在计算机模式识别中起着重要的作用,我们可以把高维的研究数据降低到低维,通过低维数据可以很方便的发现数据的特性。在基因组研究中,由于其包含的信息量大,涉及面广,提取到的特征必定是高维的,把计算机模式识别中的数据降维借鉴过来应用一定会有很好的效果,进而对发现其进化规律会产生良好的作用。本文提出了一种基于PCA+LLE的组合降维算法来分析原核细菌基因组数据的方法,并根据此方法的分析结果构造出了生物系统图,与此同时本文针对于LLE的K近邻值与本征维数的选取问题提出了较为科学的解决方案。主要工作如下:(1)研究了局部线性嵌入算法在处理高维非线性数据时涉及到的两个实际的问题:近邻参数K的选取问题以及本征维数d的选取问题。综合分析了近些年关于在局部线性嵌入算法中近邻参数K选取问题的研究进展情况,并对其进行了综合比较。根据重构误差函数提出了一种选择近邻参数K的选取方法,并且利用此方法进行了实验验证,经试验证明此方法对与近邻参数K的选取具有一定的优越性。在如何选取本征维数d的问题上利用损失函数最小化的特点引入了拓扑相似度这一概念,并从理论上分析了本征维数d与拓扑相似度之间的关系,利用其关系特点总结了一套本征维数d的选取方法,并用此方法做了实验和讨论。(2)提出了PCA+LLE的组合降维算法提出并分析了PCA和LLE存在的一些问题;根据PCA与LLE的问题及自身的优劣特点提出了解决各自问题的PCA+LLE组合降维算法,并用实例对其优越性进行了分析;在基于PCA+LLE组合降维算法的基础上对23个原核细菌进行了降维分析,根据降维效果将其分为了两大类,此结论符合以前学者的研究成果,从而证明了实验的正确性以及PCA+LLE组合降维算法使用的正确性。(3)基于PCA+LLE组合降维算法对23个原核细菌基因组进行了降维分析与生物系统树图的建立。对于分子水平的系统分析方法以及基于基因组水平的系统分析方法作了简要的概述;根据不同原核细菌的DNA序列中的GC含量之间的差异的特点提出一种DNA序列的特征选取方法,并在此基础上对于选取的特征进行PCA+LLE的组合降维分析;根据降维后的图形结果对23个原核细菌进行生物系统树图的建立。最后,对论文的工作做出了总结,并指出了下一步的研究方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究背景与意义
  • 1.2 生物信息学概况
  • 1.2.1 生物信息学概念
  • 1.2.2 生物信息学的研究目标和任务
  • 1.3 基因组进化研究的现状
  • 1.3.1 国外研究现状
  • 1.3.2 国内研究现状
  • 1.4 论文的研究内容与主要方法
  • 1.4.1 论文研究的主要内容
  • 1.4.2 论文研究的主要方法
  • 1.5 论文的组织结构
  • 第二章 生物信息学相关知识
  • 2.1 DNA--生物遗传信息的载体
  • 2.2 中心法则
  • 2.2.1 DNA 的复制
  • 2.2.2 转录
  • 2.2.3 翻译
  • 2.3 基因组
  • 2.3.1 真核生物基因组
  • 2.3.2 原核生物基因组
  • 2.4 生物信息学数据库
  • 2.4.1 基因和基因组数据库
  • 2.4.2 蛋白质数据库
  • 2.4.3 其它数据库
  • 第三章 数据降维算法综述
  • 3.1 数据降维算法的提出
  • 3.1.1 维数灾难及解决方法
  • 3.1.2 数据降维算法的定义
  • 3.1.3 数据降维算法的分类
  • 3.2 典型降维算法概述
  • 3.2.1 线性降维
  • 3.2.2 非线性降维
  • 3.2.3 不同算法之间的比较
  • 第四章 局部线性嵌入算法的参数选取
  • 4.1 LLE 的K -近邻域问题
  • 4.1.1 基于先验知识的K 选取
  • 4.1.2 简单方法
  • 4.1.3 小世界邻域优化方法
  • 4.1.4 本论文提出的方法
  • 4.2 LLE 的本征维数的选取
  • 4.2.1 基于损失函数最小化的本征维数的选取
  • 4.3 本章结论
  • 第五章 组合降维算法在基因组数据分析中的研究
  • 5.1 问题的提出
  • 5.1.1 PCA 的局限性
  • 5.1.2 LLE 的局限性
  • 5.2 PCA+LLE 组合降维算法
  • 5.2.1 算法设想
  • 5.2.2 算法基本思想及其步骤
  • 5.2.3 算法分析
  • 5.3 基于PCA+LLE 组合降维算法的基因组特征分析
  • 5.3.1 实验数据
  • 5.3.2 特征选取
  • 5.3.3 基于PCA+LLE 的降维处理
  • 5.4 本章小结
  • 第六章 原核细菌的亲缘分析及其生物系统树图的建立
  • 6.1 分子水平的系统发生分析
  • 6.2 以基因组为研究对象的系统发生分析方法的介绍
  • 6.2.1 基于多颗系统发生树的方法
  • 6.2.2 基于基因次序的方法
  • 6.2.3 基于基因内容的方法
  • 6.3 基于PCA+LLE 的组合降维算法的基因组系统发生分析
  • 6.3.1 基因组中DNA 序列的特征选取
  • 6.3.2 比较基准基因组的选取及基因组内基因的分类
  • 6.3.3 不同基因组间的比较
  • 6.4 本章小结
  • 第七章 结论与展望
  • 7.1 结论
  • 7.2 展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于PCA+LLE组合降维的基因组进化研究
    下载Doc文档

    猜你喜欢