论文摘要
数据绛维在计算机模式识别中起着重要的作用,我们可以把高维的研究数据降低到低维,通过低维数据可以很方便的发现数据的特性。在基因组研究中,由于其包含的信息量大,涉及面广,提取到的特征必定是高维的,把计算机模式识别中的数据降维借鉴过来应用一定会有很好的效果,进而对发现其进化规律会产生良好的作用。本文提出了一种基于PCA+LLE的组合降维算法来分析原核细菌基因组数据的方法,并根据此方法的分析结果构造出了生物系统图,与此同时本文针对于LLE的K近邻值与本征维数的选取问题提出了较为科学的解决方案。主要工作如下:(1)研究了局部线性嵌入算法在处理高维非线性数据时涉及到的两个实际的问题:近邻参数K的选取问题以及本征维数d的选取问题。综合分析了近些年关于在局部线性嵌入算法中近邻参数K选取问题的研究进展情况,并对其进行了综合比较。根据重构误差函数提出了一种选择近邻参数K的选取方法,并且利用此方法进行了实验验证,经试验证明此方法对与近邻参数K的选取具有一定的优越性。在如何选取本征维数d的问题上利用损失函数最小化的特点引入了拓扑相似度这一概念,并从理论上分析了本征维数d与拓扑相似度之间的关系,利用其关系特点总结了一套本征维数d的选取方法,并用此方法做了实验和讨论。(2)提出了PCA+LLE的组合降维算法提出并分析了PCA和LLE存在的一些问题;根据PCA与LLE的问题及自身的优劣特点提出了解决各自问题的PCA+LLE组合降维算法,并用实例对其优越性进行了分析;在基于PCA+LLE组合降维算法的基础上对23个原核细菌进行了降维分析,根据降维效果将其分为了两大类,此结论符合以前学者的研究成果,从而证明了实验的正确性以及PCA+LLE组合降维算法使用的正确性。(3)基于PCA+LLE组合降维算法对23个原核细菌基因组进行了降维分析与生物系统树图的建立。对于分子水平的系统分析方法以及基于基因组水平的系统分析方法作了简要的概述;根据不同原核细菌的DNA序列中的GC含量之间的差异的特点提出一种DNA序列的特征选取方法,并在此基础上对于选取的特征进行PCA+LLE的组合降维分析;根据降维后的图形结果对23个原核细菌进行生物系统树图的建立。最后,对论文的工作做出了总结,并指出了下一步的研究方向。
论文目录
摘要Abstract第一章 绪论1.1 课题研究背景与意义1.2 生物信息学概况1.2.1 生物信息学概念1.2.2 生物信息学的研究目标和任务1.3 基因组进化研究的现状1.3.1 国外研究现状1.3.2 国内研究现状1.4 论文的研究内容与主要方法1.4.1 论文研究的主要内容1.4.2 论文研究的主要方法1.5 论文的组织结构第二章 生物信息学相关知识2.1 DNA--生物遗传信息的载体2.2 中心法则2.2.1 DNA 的复制2.2.2 转录2.2.3 翻译2.3 基因组2.3.1 真核生物基因组2.3.2 原核生物基因组2.4 生物信息学数据库2.4.1 基因和基因组数据库2.4.2 蛋白质数据库2.4.3 其它数据库第三章 数据降维算法综述3.1 数据降维算法的提出3.1.1 维数灾难及解决方法3.1.2 数据降维算法的定义3.1.3 数据降维算法的分类3.2 典型降维算法概述3.2.1 线性降维3.2.2 非线性降维3.2.3 不同算法之间的比较第四章 局部线性嵌入算法的参数选取4.1 LLE 的K -近邻域问题4.1.1 基于先验知识的K 选取4.1.2 简单方法4.1.3 小世界邻域优化方法4.1.4 本论文提出的方法4.2 LLE 的本征维数的选取4.2.1 基于损失函数最小化的本征维数的选取4.3 本章结论第五章 组合降维算法在基因组数据分析中的研究5.1 问题的提出5.1.1 PCA 的局限性5.1.2 LLE 的局限性5.2 PCA+LLE 组合降维算法5.2.1 算法设想5.2.2 算法基本思想及其步骤5.2.3 算法分析5.3 基于PCA+LLE 组合降维算法的基因组特征分析5.3.1 实验数据5.3.2 特征选取5.3.3 基于PCA+LLE 的降维处理5.4 本章小结第六章 原核细菌的亲缘分析及其生物系统树图的建立6.1 分子水平的系统发生分析6.2 以基因组为研究对象的系统发生分析方法的介绍6.2.1 基于多颗系统发生树的方法6.2.2 基于基因次序的方法6.2.3 基于基因内容的方法6.3 基于PCA+LLE 的组合降维算法的基因组系统发生分析6.3.1 基因组中DNA 序列的特征选取6.3.2 比较基准基因组的选取及基因组内基因的分类6.3.3 不同基因组间的比较6.4 本章小结第七章 结论与展望7.1 结论7.2 展望参考文献致谢个人简历、在学期间的研究成果及发表的学术论文
相关论文文献
标签:生物信息学论文; 近邻参数论文; 本征维数论文; 高维数据组合降维论文; 生物系统图论文;