机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度

机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度

论文摘要

蛋白质组学成为后基因组时代的热点学科。生物质谱、蛋白质芯片等高通量实验技术的发明极大地推动了蛋白质组学的发展。本文致力于通过生物信息学的方法,进一步提高当前高通量实验技术的效率和精确程度,以更低的实验代价,获得更加全面、准确的实验结果。蛋白质—蛋白质相互作用在生命过程中起着重要的作用。通过多年的生物学实验,已经积累了大量的蛋白质相互作用数据,但未知的相互作用还有很多。目前筛选蛋白质相互作用的实验方法既耗费人力物力,而且由于丰度抑制的原因而很难鉴定出低丰度的蛋白之间的相互作用。一条更简单的途径是通过生物信息学的方法首先用计算机筛选蛋白质数据库,预测出潜在的蛋白质相互作用,然后再用生物学实验进行验证。这个策略具有比实验手段高得多的通量,而且可以解决丰度抑制的问题。在蛋白质—蛋白质相互作用的类型中,有相当一部分相互作用是通过蛋白质的某个结构域与其配体蛋白上的一段短肽相结合来实现的,这种结构域被称为多肽识别元件(Peptide recognition module,PRM)。本文的第一章通过研究PRM结合多肽的结合特性,预测了蛋白质—蛋白质之间的相互作用。以PDZ结构域为例,结合了基于结构的和基于序列的预测方法,本文建立了一个整合的预测系统来预测结构域和配体间的相互作用。在这个系统中,我们提取了结构域和配体三维结构上相互接触的氨基酸残基来代替序列全长,利用三种新型的氨基酸编码方式,用支持向量机和人工神经网络两种机器学习算法分别建立了三个子预测系统,最后将它们的预测结果综合在一起。用交叉验证的方法来评价,预测系统的特异性为0.99,灵敏度为0.60。然而,由于已知的一个结构域的配体通常只有几十或几百个,远远小于蛋白质数据库的上万个蛋白的规模,仅仅建立在少量数据上的交叉验证的评价结果不一定能保证预测方法在筛选数据库时的成功。为了验证这一点,本文从Swissprot人类数据库中为3个PDZ结构域筛选了配体蛋白序列,预测结果的相当一部分与高通量的体外实验(peptide SPOT array)的结果重合,证明了预测系统的泛化能力。串联质谱技术(MS/MS)是常用的蛋白质组学研究方法。在这个方法中,蛋白质混合物首先被酶切为多肽混合物,在质谱仪中被离子化,再经过碎裂后产生大量的二级质谱图。数据库检索是常见的质谱数据处理方法。其主要思想是将实验谱图与数据库中的酶切多肽的理论谱图进行比对,通过特定的打分算法,找到匹配最佳的多肽。由于样品和实验原理的复杂性,质谱图带有很高的噪声,为后续的数据处理工作带来了很大的难度。目前已有多种算法用来优化多肽的鉴定,但阳性和阴性的多肽鉴定仍不能够被完美地区分。为了保证鉴定结果的可信,就不得采用更严格的参数限制来去除假阳性鉴定,与此同时不可避免地产生了大量的假阴性鉴定,降低了蛋白质组学研究的效率。本文的第二章建立了一个新的参数Oscore,对实验谱图与多肽的匹配进行打分。Oscore基于logistic回归模型建立,以18个标准蛋白数据集作为学习集,可以直接地计算出谱图与多肽的匹配为正确匹配的概率。回归模型的自变量包括:SEOUEST软件输出的参数Xcorr,△Cn,Sp(preliminary score)和实验室自制的AMASS(Sun etal.Mol Cell Proteomics.2004 Dec;3(12):1194-9)软件的输出参数Rscore,Cont,Matchpct,以及多肽电荷数和漏切位点数(number of missed internal cleavage sites)。AMASS的三个参数考虑了子离子强度和b/y系列离子的连续性的信息,有助于区分阳性和阴性的多肽鉴定。由于上述的8个参数之间具有复杂的相关关系,将它们组合成Oscore可以提高鉴定的准确度。与常用的软件PeptideProphet相比,Oscore同时在多个数据集上表现出更好的特异性(低假阳性率)和灵敏度(低假阴性率)。这些数据集包括标准蛋白混合物数据集和3个蛋白质组水平的数据集,涵盖了不同的样品复杂度、数据库规模和分离方式,在一定程度上表明了Oscore的泛化能力。通过一个同样基于logistic回归,但只采用PeptideProphet所用参数的新模型,本文探讨了Oscore具有更好的判别能力的原因。目前的Oscore针对的是具有完全酶切的末端(即多肽的两端都是由胰酶酶切在氨基酸K或R之后产生)的多肽,提高非完全酶切的多肽的鉴定水平将是今后的工作。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第一章 基于机器学习方法建立蛋白质结构域与配体相互作用的预测系统
  • 1.1 前言
  • 1.2 材料与方法
  • 1.2.1 结构域三维结构的收集和相互作用接触面(interface)位点的选取
  • 1.2.2 相互作用数据的收集
  • 1.2.3 相互作用的多肽序列的表示
  • 1.2.4.两种机器学习算法
  • 1.2.5 预测效果的评价
  • 1.2.6 三种预测方法的整合
  • 1.2.7 体外高通量筛选相互作用实验数据的获得
  • 1.2.8 酵母双杂交方法筛选随机多肽库的实验数据获得
  • 1.3 结果与讨论
  • 1.3.1 模型的建立
  • 1.3.2 预测系统的特异性——从蛋白质数据库中筛选结构域结合的配体并与实验结果比较
  • 1.3.3 预测系统的灵敏度——与酵母双杂交筛选随机多肽库的结果比较
  • 1.3.4 对新类别配体的预测
  • 1.3.5 从交叉验证结果估计预测系统筛库的精确度(Estimated Screening Precision)
  • 1.3.6 从配体蛋白的序列预测可能结合的结构域
  • 1.3.7 讨论:应用机器学习方法解决生物学问题
  • 1.3.8 讨论(2)
  • 1.4 结论
  • 参考文献
  • 附录
  • 附表1:613个PDZ结构域上参与相互作用的氨基酸残基
  • 附表2:学习集的338对相互作用
  • 附表3:Erbin PDZ结构域结合配体
  • 附表4:三个PDZ结构域结合配体的预测结果
  • 第二章 应用Logistic回归提高串联质谱鉴定多肽的准确度
  • 2.1 前言
  • 2.2 材料与方法
  • 2.2.1 MS/MS实验数据的获得
  • 2.2.2 利用SEQUEST软件进行数据库检索
  • 2.2.3 Logistic回归模型
  • 2.2.4 本文使用的统计方法
  • 2.3 结果
  • 2.3.1 模型的建立
  • 2.3.2 Oscore在标准蛋白数据集上的表现
  • 2.3.3 Oscore在蛋白质组水平的复杂数据集上的表现
  • 2.3.4 Oscore比PeptideProphet具有更好表现的原因探讨
  • 2.3.5 鉴定非完全酶切的多肽的尝试
  • 2.4 讨论
  • 2.5 结论
  • 参考文献
  • 综述 应用计算方法预测蛋白质相互作用的研究进展
  • 个人简历
  • 在读期间学术成果
  • 致谢
  • 发表论文
  • 相关论文文献

    • [1].皂苷-蛋白质相互作用的研究进展[J]. 中国食品学报 2020(04)
    • [2].蛋白质相互作用数据库[J]. 中国生物化学与分子生物学报 2017(08)
    • [3].基于多特征融合预测蛋白质相互作用界面[J]. 中南民族大学学报(自然科学版) 2017(03)
    • [4].基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J]. 中国中医药信息杂志 2016(02)
    • [5].基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J]. 生物物理学报 2015(02)
    • [6].蛋白质相互作用的研究方法及进展分析[J]. 文理导航(中旬) 2018(01)
    • [7].大规模蛋白质相互作用组实验技术及其应用[J]. 生命的化学 2013(05)
    • [8].茶多酚-蛋白质相互作用的研究进展[J]. 食品工业科技 2019(08)
    • [9].蛋白质相互作用时序网络模型及动态性质分析[J]. 湖南理工学院学报(自然科学版) 2018(01)
    • [10].水稻组织特异性蛋白质相互作用网络构建方法[J]. 哈尔滨工业大学学报 2018(11)
    • [11].基于空间映射的蛋白质相互作用网络链接预测算法[J]. 计算机科学 2016(S1)
    • [12].动态加权蛋白质相互作用网络构建及其应用研究[J]. 自动化学报 2015(11)
    • [13].双分子荧光互补在蛋白质相互作用中的应用[J]. 湖北医药学院学报 2014(02)
    • [14].蛋白质相互作用网络演化模型研究进展[J]. 计算机应用 2013(03)
    • [15].通过液质联用鉴定蛋白质相互作用方法的建立[J]. 首都医科大学学报 2013(03)
    • [16].基于组合特征集成的蛋白质相互作用位点预测[J]. 济南大学学报(自然科学版) 2012(01)
    • [17].蛋白质相互作用网络分析的图聚类方法研究进展[J]. 计算机工程与科学 2012(01)
    • [18].荧光共振能量转移动态检测蛋白质相互作用的研究进展[J]. 济宁医学院学报 2012(01)
    • [19].糖-蛋白质相互作用在酶固定及蛋白质识别与分离中的应用[J]. 中国生物工程杂志 2012(04)
    • [20].蛋白质相互作用网络研究的引文分析[J]. 中华医学图书情报杂志 2012(04)
    • [21].蛋白质相互作用预测方法研究进展[J]. 计算机光盘软件与应用 2012(18)
    • [22].蛋白质相互作用研究进展[J]. 生物学通报 2012(11)
    • [23].基于图聚类的蛋白质相互作用网络功能模块探测[J]. 食品与生物技术学报 2011(01)
    • [24].随机抽样对蛋白质相互作用网络度分布的影响[J]. 生物信息学 2011(03)
    • [25].蛋白质相互作用网络的相似子网搜索问题研究[J]. 计算机工程与应用 2010(03)
    • [26].一类蛋白质相互作用网络比对的线性规划算法[J]. 生物物理学报 2010(01)
    • [27].基于多窗口不同特征的蛋白质相互作用位点预测[J]. 安徽大学学报(自然科学版) 2010(05)
    • [28].数据来源对蛋白质相互作用网络度分布的影响[J]. 生物数学学报 2010(04)
    • [29].蛋白质相互作用网络进化分析研究进展[J]. 生物化学与生物物理进展 2009(01)
    • [30].蛋白质相互作用网络的几种聚类方法综述[J]. 国防科技大学学报 2009(04)

    标签:;  ;  ;  ;  ;  

    机器学习方法预测蛋白质相互作用应用Logistic回归提高质谱多肽鉴定的准确度
    下载Doc文档

    猜你喜欢