高维生物数据的分类与预测研究

高维生物数据的分类与预测研究

论文摘要

近几年,随着生物科学技术的飞速发展,产生出大量的生物数据。例如基因芯片技术大大加速了生物实验的进行,并随之产生了涉及数千维特征的基因表达数据,如何有效的处理和分析所产生的高维数据越来越引起研究者们的广泛关注。对于蛋白质数据,同样也面临这样的问题,为了更好地描述一个庞大的蛋白质信息数据,需要大量的高维数据和信息。但是最初研究人员提出的用来描述蛋白质序列信息的方法比较简单,得到的特征所包含的序列信息量很少,所以特征的维数不是很高,例如氨基酸的组成的特征描述方法。随着研究的不断深入,为了更好的描述蛋白质序列,表达方法中考虑了氨基酸的各种物理化学性质,即产生了伪氨基酸组成等方法。现今,随着蛋白质信息的增加以及各种蛋白质数据库的建立与完善,利用蛋白质数据库信息以及进化信息来描述蛋白质序列的特征表达方法被提出,典型的方法包括二肽组成、位置特异性分数矩阵(PSSM)、功能域组成、基因本体(GO)等。它们虽然比较全面的表达了蛋白质序列的各种结构和功能信息,但表达后相应特征的维数也随之增大,涉及到的特征维数已从几十维增加到几百维、甚至几千维。随着维度(特征数)的增加,数据之间的冗余性和不相关性都随之增大,这样会带来很多问题,例如对于某些数据分析算法,算法的计算复杂性会迅速增加。因此研究者们开始考虑有效的降低数据的冗余性及计算复杂度的理论和方法,维数约简算法即对高维数据降维的方法,是解决该问题的一种有效途径。通过降维约简了大量的冗余信息,但原数据中的重要信息被保留了下来。许多实验结果都证明采用降维方法不但使得预测系统得到简化,同时还提高了分类性能。本论文基于线性子空间降维方法来预测蛋白质数据的类别,其有效性通过模型评估方法得以验证。但是线性假设的内在不足使得线性降维方法无法揭示出数据集合中所含有的非线性结构性,而现实中所获得的真实数据集合更多的是呈现出非线性的结构,如本文研究的生物数据就是一种复杂的非线性结构数据。故为了弥补线性降维方法的不足,有效的探求数据集的内在非线性结构,线性子空间预测方法被推广到高维特征空间,开发出基于核方法的蛋白质数据分类预测算法。但是核函数不利于人的感知和直接理解,流形学习降维算法的提出弥补了它的不足。最近,产生了一种新的降维方法-最大方差映射方法。它结合了流形学习和线性降维方法的优点,采用该方法预测蛋白质的类别取得了较高的预测准确率。最后针对经典等距离映射(Isomap)降维算法的不足之处,提出了相应的改进算法MDM-Isomap,即基于最小最大距离度量准则(MDM)的降维算法。通过人脸识别实验进一步证明了该改进算法的有效性。本文的主要贡献在于:1.本文提出采用线性子空间降维方法来预测蛋白质亚细胞位置和四级结构。首先提取蛋白质数据的序列特征生成属性向量。属性向量的维数一般都很高,它能全面的描述蛋白质序列信息的同时,也带来了“维数灾难”问题,使得蛋白质亚细胞预测系统的复杂度很高。为了解决这一问题,我们采用了线性子空间的降维方法从中提取出重要的低维的特征向量,然后在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法不但使得生物预测系统得到简化,还提高了预测性能。2.考虑到线性降维方法对数据的假设过于苛刻,需要满足线性结构,而生物数据大多呈现出非线性的结构特点,所以这里将所提出的线性子空间方法推广到高维特征空间,形成基于核方法(非线性降维方法)的蛋白质亚细胞位置预测算法。经实验证明了这种方法的有效性,预测准确率高于基于线性子空间降维算法的预测方法。3.充分挖掘流形学习算法与线性降维算法的优点,以将两种方法的相结合为切入点,本文采用线性与非线性方法相结合的算法—最大方差映射方法(MVP)来预测膜蛋白的类别。它继承了线性判别分析算法(LDA)的最大化类间距离和最小化类内距离的思想,并在此基础上考虑了样本的局部几何特征,将其延伸为最大化类间的几何特征和最小化类内的几何特征。MVP方法的优点在于与传统的线性判别分析算法相比,它考虑了样本的空间几何结构信息,与基本的流形学习算法相比,它又具备判别能力,对解决分类问题的特征降维,尤其是膜蛋白的分类预测问题非常有效。4.对比了各种降维算法在蛋白质数据分类预测中的结果,总结出了各种降维算法的优点和缺点。针对等距离映射算法(Isomap)的邻域大小难以有效选取的问题提出了相应的改进算法,即基于最小最大距离度量准则(MDM)的降维算法MDM-Isomap。采用这种新的度量算法替代原始的欧式距离度量算法使得选择的近邻更加准确更能反应流形的本质特点。通过人脸识别实验也证明了这种方法的有效性,预测准确率高于经典的Isomap降维方法。5.为了进一步加速研究成果的转化及应用,建立了蛋白质亚细胞位置预测的在线生物服务网站。通过互联网,世界各地的学者可以在线使用该服务网站进行预测。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.2.1 生物信息学概述
  • 1.2.2 蛋白质
  • 1.2.3 蛋白质数据库
  • 1.3 相关技术和国内外研究现状
  • 1.3.1 蛋白质数据的特征描述方法
  • 1.3.2 蛋白质数据的分类方法
  • 1.4 论文的研究内容与创新点
  • 1.5 论文的组织结构
  • 第二章 蛋白质序列数据的特征分析与分类技术
  • 2.1 引言
  • 2.2 蛋白质序列的特征描述方法
  • 2.2.1 基于氨基酸组成和序列顺序信息的特征描述方法
  • 2.2.2 基于氨基酸物理化学特性的特征描述方法
  • 2.2.3 基于蛋白质数据库信息的特征描述方法
  • 2.2.4 基于蛋白质进化信息的特征描述方法
  • 2.3 蛋白质分类算法
  • 2.4 分类模型的检验与评估
  • 2.4.1 模型的检验
  • 2.4.2 模型的评估
  • 2.5 本章小结
  • 第三章 基于线性子空间算法的蛋白质序列分类与预测
  • 3.1 引言
  • 3.2 线性子空间概述
  • 3.2.1 主成分分析基础
  • 3.2.2 线性判别分析
  • 3.3 基于线性降维算法的蛋白质亚细胞位置预测
  • 3.3.1 亚细胞位置预测问题
  • 3.3.2 亚细胞位置预测的研究现状
  • 3.3.3 细菌蛋白亚细胞位置预测算法
  • 3.3.4 预测实验及讨论
  • 3.4 基于PCA 的蛋白质四级结构预测
  • 3.4.1 四级结构预测问题
  • 3.4.2 四级结构预测的研究现状
  • 3.4.3 四级结构数据选取
  • 3.4.4 四级结构预测算法
  • 3.4.5 实验结果及讨论
  • 3.5 本章小结
  • 第四章 基于核方法的蛋白质亚细胞位置的分类与预测
  • 4.1 引言
  • 4.2 核方法基础
  • 4.2.1 核方法的基本思想
  • 4.2.2 常用的核函数
  • 4.2.3 核方法的发展及应用
  • 4.3 基于非线性降维算法的蛋白质亚细胞位置预测
  • 4.3.1 核 PCA
  • 4.3.2 核 LDA
  • 4.3.3 细菌蛋白质亚细胞位置预测
  • 4.3.4 实验结果及讨论
  • 4.3.5 Internet 网络服务
  • 4.4 本章小结
  • 第五章 基于流形学习算法的膜蛋白分类与预测
  • 5.1 引言
  • 5.2 流形学习算法
  • 5.2.1 流形学习算法的研究现状
  • 5.2.2 几种流形学习算法
  • 5.2.3 最大方差映射算法
  • 5.3 基于最大方差映射算法的膜蛋白类型预测
  • 5.3.1 膜蛋白类型预测问题
  • 5.3.2 膜蛋白类型预测的研究现状
  • 5.3.3 膜蛋白类型预测算法
  • 5.3.4 实验结果及讨论
  • 5.4 本章小结
  • 第六章 降维算法在高维生物数据中的应用与改进
  • 6.1 引言
  • 6.2 实验结果及讨论
  • 6.3 Isomap 改进算法
  • 6.3.1 最小最大距离
  • 6.3.2 MDM-Isomap 算法
  • 6.3.3 实验结果及讨论
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 全文工作总结
  • 7.2 未来工作展望
  • 参考文献
  • 致谢
  • 博士期间发表、撰写的学术论文
  • 相关论文文献

    • [1].重叠特征策略与参数优化的运动想象脑电模式识别[J]. 模式识别与人工智能 2020(08)
    • [2].“模式识别”在高三实验复习教学中的应用[J]. 教学考试 2020(06)
    • [3].利用“模式识别”解“隐形圆”类题[J]. 数理化解题研究 2020(19)
    • [4].数学解题中“模式识别”及其应用——基于“怎样解题表”的实践研究[J]. 初中数学教与学 2020(05)
    • [5].谈“模式识别”在提升学生解题能力方面的应用[J]. 中学数学教学参考 2016(33)
    • [6].模式识别函数组合,巧解函数不等式[J]. 中学数学教学参考 2017(12)
    • [7].重视“模式识别”的作用 提高“变式教学”的效率[J]. 数学通讯 2016(20)
    • [8].精彩优质课堂我做主——《模式识别快乐学习之旅》磨课体会[J]. 发明与创新(教育信息化) 2017(01)
    • [9].模式识别学习“激趣”学习任务[J]. 中小学电教(下半月) 2017(07)
    • [10].例谈“模式识别”在中考中的应用[J]. 中小学数学(初中版) 2008(03)
    • [11].基于正常人的肌电模式识别抗力变化的鲁棒性研究[J]. 中国康复医学杂志 2020(02)
    • [12].模式识别解题的理论探讨[J]. 数学通报 2010(03)
    • [13].模式识别在机器人技术中的应用[J]. 科技传播 2018(19)
    • [14].模式识别的概述及其应用[J]. 通讯世界 2018(08)
    • [15].距离模式识别图的判定[J]. 数学杂志 2017(06)
    • [16].模式识别:突破中考的快捷键[J]. 数学教学通讯 2010(25)
    • [17].从一种数学模型的探究谈模式识别的“立”与“破”[J]. 中学数学月刊 2012(05)
    • [18].利用“模式识别”巧解题[J]. 中学数学教学参考 2015(Z2)
    • [19].医学模式识别课程建设的探索[J]. 医学信息 2010(03)
    • [20].结合科研的“模式识别”研究生教学改革探索与实践[J]. 科技视界 2019(06)
    • [21].机载火控雷达工作模式识别[J]. 电子测量技术 2016(02)
    • [22].“模式识别新技术研讨课”教学探索思考[J]. 教育现代化 2018(45)
    • [23].高校模式识别课程改革与探讨[J]. 电脑知识与技术 2019(20)
    • [24].浅谈模式识别在图像识别中的应用[J]. 电子测试 2017(23)
    • [25].基于二次曲面拟合的图像颜色渐变模式识别[J]. 广东科技 2017(01)
    • [26].解题应多一些模式,少一些模式化[J]. 数学教学通讯 2013(36)
    • [27].基于数学问题解决的模式识别解题策略的探析与思考[J]. 中学数学研究 2014(10)
    • [28].2014年全国模式识别学术会议[J]. 智能系统学报 2014(01)
    • [29].2009年全国模式识别学术会议暨中日韩模式识别学术研讨会征文通知[J]. 模式识别与人工智能 2009(02)
    • [30].基于驾驶员意图及行驶场景判断的智能驾驶模式识别策略[J]. 汽车实用技术 2020(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    高维生物数据的分类与预测研究
    下载Doc文档

    猜你喜欢