蛋白质鉴定中串联质谱数据预处理的算法研究

蛋白质鉴定中串联质谱数据预处理的算法研究

论文摘要

当前蛋白质鉴定的研究中,通过串联质谱鉴定多肽序列从而鉴定蛋白质是最广泛使用的技术。实验中,从色谱中分离出来的多肽经过CID过程被裂解成碎片离子,这些离子的质量/电荷比值(m/z)被质谱仪器检测到,形成串联质谱。采用数据库搜索方法或者De novo从头解序方法,可从这些碎片离子的m/z值中鉴定出多肽的序列来。 然而,不管采用什么计算方法进行多肽序列的鉴定,高分辨率串联质谱数据的特点决定了其在计算上的困难。质谱中大量的物理噪声和离子的同位素峰,增加了多肽序列鉴定过程的计算量,而且使得随机匹配的可能性增高,从而导致鉴定的结果可靠性降低。此外,质谱中数据中的质量测量误差直接影响多肽鉴定结果。因此,在进行多肽序列鉴定之前,对质谱数据进行预处理非常关键。 本文从理论、算法和应用三个层次来讨论对串联质谱数据的预处理技术,实现对质谱数据的多种预处理,包括过滤质谱中的物理噪声、过滤同位素峰、预测离子对应的分子式、识别质谱的测量误差等。通过这些预处理,最终降低序列鉴定过程的计算量、提高单个质谱的鉴定可靠性、以及提高能能鉴定出多肽的质谱个数,从而提高蛋白质鉴定的可靠性。 本文首先提出一个关键的同位素模式概念,可以定量地刻画离子的一系列同位素在质量、丰度上的特征;并给出了计算离子的理论和实验同位素模式的公式,在此基础上可进行多种讨论,比如区分质谱中离子和噪声对应的谱峰、预测离子的分子式、估计质谱质量测量误差等。 基于同位素模式概念,本文提出了从质谱中挑选潜在的离子单同位素峰的算法PeakSelect。本文从理论上讨论了噪声和离子谱峰的本质区别以及质谱中离子同位素峰重叠的分布情况,并讨论了噪声谱峰在强度上的分布。在此基础上,本文提出多个有效的特征来区别噪声、孤立的离子谱峰、重叠的离子谱峰,并建立谱峰分类的决策树,从质谱中挑选潜在的离子的单同位素峰。实验结果表明PeakSelect能准确地挑选质谱中的离子单同位素谱峰,不仅能够大大缩短鉴定软件在多肽序列鉴定上所需的计算时间,并且能大大增加可靠鉴定出的多肽的个数,提高了质谱的利用率,也提高了所鉴定的蛋白质序列的覆盖率,从而提高了鉴定结果的可靠性。此外,本算法性能较之现有的商用软件,比如ProteinLynxTM Global Server对质谱有效峰选取的预处理效果更好。 在估计质谱质量误差之前,本文先提出了预测离子分子式的算法FFP。FFP通过比较分子式对应的理论同位素模式与质谱中实际出现的实验同位素模式间的差异来预测离

论文目录

  • 声明
  • 论文版权使用授权书
  • 摘要
  • ABSTRACT
  • 目录
  • 图目录
  • 表目录
  • 第一章 引言
  • 1.1 基于质谱技术的蛋白质鉴定
  • 1.2 串联质谱
  • 1.3 串联质谱数据的预处理
  • 1.4 本文的贡献
  • 1.5 本文的组织
  • 第二章 基于质谱技术的蛋白质鉴定问题的概述
  • 2.1 基于质谱技术的蛋白质鉴定流程
  • 2.2 蛋白质和多肽
  • 2.3 质谱技术
  • 2.3.1 质谱分析原理
  • 2.3.2 质谱技术发展历史
  • 2.3.3 质谱仪重要性能指标
  • 2.3.4 串联质谱及质谱数据特点
  • 2.4 基于质谱的多肽和蛋白质鉴定方法及计算问题
  • 2.4.1 肽质指纹鉴定
  • 2.4.2 串联质谱上的肽序列鉴定
  • 2.5 基于串联质谱的肽序列鉴定算法
  • 2.6 碎裂规律的研究以及理论谱构造
  • 2.7 质谱数据预处理
  • 2.7.1 原始质谱数据的预处理
  • 2.7.2 谱峰中心化后的质谱数据的预处理
  • 第三章 串联质谱有效峰选取算法PeakSelect
  • 3.1 质谱有效峰选取问题
  • 3.2 已有的有效峰选取算法及软件系统
  • 3.3 有效峰选取的决策树方法PeakSelect
  • 3.3.1 质谱中的同位素信息及同位素模式向量IPV概念
  • 3.3.2 混合高斯模型的质谱噪声基线的识别
  • 3.3.3 基于噪声基线及同位素模式的有效峰特征选取
  • 3.3.4 质谱中离子同位素谱峰的重叠模式
  • 3.3.5 有效峰选取的决策树方法
  • 3.4 PeakSelect算法的性能分析
  • 3.4.1 PeakSelect的谱峰选取正确率
  • 3.4.2 PeakSelect与ProteinLynx的比较
  • 3.4.3 详细分析PeakSelect在大规模酵母全细胞水解数据上的性能
  • 3.5 进一步提高PeakSelect算法性能的讨论
  • 第四章 基于同位素模式的串联质谱碎片离子分子式预测算法FFP
  • 4.1 分子式预测问题及相关研究工作
  • 4.2 FFP的数学建模及求解
  • 4.2.1 分子式预测问题的优化模型
  • 4.2.2 碎片离子理论同位素模式分布的统计分析
  • 4.2.3 局部搜索和多重约束过滤器
  • 4.3 FFP算法的性能分析
  • 4.3.1 实验数据
  • 4.3.2 性能评价指标
  • Enumerate和AC的比较'>4.3.3 FFP与MSEnumerate和AC的比较
  • 4.3.4 保证FFP性能优越的关键原因
  • 4.3.5 局部搜索和多重过滤器在FFP中的相对功效
  • 4.4 FFP的应用
  • 4.4.1 对多肽解序的De novo方法提供有用信息
  • 4.4.2 对质谱质量测量误差分析提供有用信息
  • 4.5 进一步改进FFP算法的讨论
  • 第五章 串联质谱质量测量误差的预测算法QMass
  • 5.1 质谱质量测量误差及校准
  • 5.1.1 质谱质量测量误差
  • 5.1.2 已有的误差估计及校准方法
  • 5.2 QMass的数学模型
  • 5.3 QMass在Q-TOF串联质谱上的应用
  • 5.3.1 Q-TOF串联质谱的系统误差分布函数
  • 5.3.2 系统误差参数的求解方法
  • 5.3.3 离子的测量质量和理论质量数对的求法
  • 5.3.4 误差预测的迭代算法
  • 5.4 QMass算法的性能分析
  • 5.4.1 算法在标准肽串联质谱上的预测精度
  • 5.4.2 算法在大规模酵母全细胞水解数据上的性能
  • 5.4.3 通过QMass对没有被Mascot可靠解释的质谱的分析
  • 5.5 进一步改进QMass算法的讨论
  • 第六章 串联质谱数据预处理系统
  • 6.1 预处理系统体系构架
  • 6.2 算法流程
  • 6.2.1 质谱有效峰选取算法模块的流程
  • 6.2.2 碎片离子分子式预测算法模块的流程
  • 6.2.3 质谱质量测量误差预测算法模块的流程
  • 第七章 结束语
  • 7.1 本文工作总结
  • 7.2 下一步研究方向
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].浅谈几种同分异构体的质谱解析[J]. 大学化学 2020(02)
    • [2].质谱流式技术用于单细胞检测[J]. 中国细胞生物学学报 2020(02)
    • [3].更深度的“照相”技术——质谱成像的发展与应用[J]. 大学化学 2020(03)
    • [4].稳定同位素质谱在食品真假鉴定和产地溯源中的应用[J]. 食品安全导刊 2017(25)
    • [5].质谱分子成像的研究进展[J]. 中国科学:生命科学 2020(11)
    • [6].利用高效液相色谱-串联质谱追踪酸奶发酵过程中的酪蛋白磷酸肽[J]. 色谱 2017(06)
    • [7].人群尿液中铬元素的电感耦合等离子体-质谱快速测定法[J]. 职业与健康 2017(17)
    • [8].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(06)
    • [9].北京质谱年会岛津质谱技术获关注[J]. 中国食品 2014(10)
    • [10].2012年第四届世界华人质谱研讨会的通知[J]. 质谱学报 2012(01)
    • [11].2012年第四届世界华人质谱研讨会的通知[J]. 质谱学报 2012(02)
    • [12].中国质谱学会李金英理事长带队参加第二届亚太地区质谱年会[J]. 质谱学报 2011(05)
    • [13].2010年全国质谱大会暨第三届世界华人质谱研讨会第一轮通知[J]. 质谱学报 2010(01)
    • [14].2010年全国质谱大会暨第三届世界华人质谱研讨会第一轮通知[J]. 质谱学报 2010(02)
    • [15].一种新的生物组织质谱成像方法及仪器集成[J]. 华南师范大学学报(自然科学版) 2016(06)
    • [16].《环渤海色质谱绿色新技术》[J]. 分析化学 2016(12)
    • [17].甲醇和乙醇在氩气-实时直接分析质谱中的应用[J]. 应用化学 2017(06)
    • [18].基于离子液体基质的大豆中寡糖成分基质辅助激光解吸电离-质谱成像分析[J]. 分析化学 2017(08)
    • [19].2021年中国质谱学术大会(杭州)[J]. 分析化学 2020(11)
    • [20].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(04)
    • [21].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(05)
    • [22].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(02)
    • [23].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(03)
    • [24].信立方质谱培训中心2014年线下培训计划[J]. 分析测试技术与仪器 2014(01)
    • [25].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(07)
    • [26].突破质谱极限[J]. 中国医药工业杂志 2014(07)
    • [27].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(05)
    • [28].常压敞开式离子化质谱在肿瘤诊断中的研究进展[J]. 分析测试学报 2020(01)
    • [29].ICP-MS在食品检测中的干扰及其消除[J]. 农产品加工 2020(15)
    • [30].便携式质谱在职业与环境卫生检测中的应用[J]. 中国工业医学杂志 2018(02)

    标签:;  ;  ;  ;  ;  

    蛋白质鉴定中串联质谱数据预处理的算法研究
    下载Doc文档

    猜你喜欢