基于质谱血清多肽组谱图的管理分析系统构建与应用研究

基于质谱血清多肽组谱图的管理分析系统构建与应用研究

论文摘要

在后基因组时代,随着人类和其他模式生物基因组测序的完成以及质谱仪器和方法取得的重要突破,蛋白质组学在基础研究和临床应用等方面取得了巨大进展。临床蛋白质组学是蛋白质组学新近出现的一个分支学科,它侧重于蛋白质组学技术在临床医学领域的应用研究,包括疾病预防、早期诊断和辅助治疗等方面。临床蛋白组学涉及多种数据类型,血清多肽组谱图(简称血肽图)是其中比较重要的一种,是基于非凝胶系统的临床蛋白质组学应用研究,其基本原理是通过基质辅助激光解吸电离飞行时间质谱(matrix-assisted laser desorption/ionization time-of-flight mass spectrometry, MALDI-TOF/MS)或表面增强激光解吸电离飞行时间质谱( surface-enhanced laser desorption/ionization time-of-flight mass spectrometry, SELDI-TOF/MS)检测血清中多肽组的精确质量数,然后采用生物信息学方法处理获得的一种数据。通过比较疾病与健康对照血肽图的差异,人们可以发现疾病特异表达的蛋白或多肽,进而有助于在蛋白水平研究疾病的发生机制。血肽图技术在生物标志物发现、疾病早期诊断和个性化治疗等领域有着广泛的应用前景。然而血肽图技术应用于临床研究过程中必须考虑下列一些因素。首先是样本选择对血肽图技术的影响,对于临床研究所需要收集的疾病患者和正常对照人群样本,要考虑到样本个体间差异和个体内差异,正常对照人群个体间差异包括年龄、性别、种族、家族史和疾病史等,疾病患者样本最好包含完整的疾病亚型,收集的信息要尽可能完整,以便满足构建数学模型和验证的需要。其次是样本收集对血肽图技术的影响,这属于分析前差异,包括样本收集、存储和运送过程中由于环境条件差异对样本所产生的影响,由于这些差异一般与疾病无关,有可能增加寻找与疾病相关的差异蛋白质或多肽的复杂性,最终影响血肽图分析的结果。最后是仪器分析的差异对血肽图技术的影响,血肽图技术需要的质谱仪器主要是MALDI-TOF/MS和SELDI-TOF/MS。由于质谱实验过程中存在多种影响因素,质谱产生的原始谱图数据包含了大量的噪音信号,必须进行预处理以去除干扰。鉴于血肽图具有变量个数和样本数目均众多的特点,面对这样复杂的数据,只有通过生物信息学方法,才能识别出与疾病密切相关的一组多肽峰,发现血肽图中与疾病相关的特征信息。然而,现有的数据管理与分析工具已经无法满足当前的需要,而商业化软件由于价格昂贵,也在一定程度上制约了血肽图技术的广泛应用。为此,我们将临床蛋白质组学与生物信息学相结合,开发了一套基于质谱血清多肽组谱图的管理分析系统BioSunMS。该系统基于ECLIPSE插件架构,采用JAVA语言开发,具有易于发布及二次开发,界面友好,跨系统平台等特点,便于管理临床样本、质谱谱图和对质谱谱图进行预处理和建模分析,从而为相关研究人员方便快捷地开展疾病分类与分型研究提供帮助,最后,我们以基于肺癌患者血肽图的样本分类和分型研究为例说明BioSunMS的功能,具体内容如下。1.血肽图数据库构建血肽图数据库主要用来存放正常人以及多种肿瘤(包括肺癌、肝癌、乳腺癌、直肠癌、前列腺癌和白血病等)患者的血清多肽谱、样本及其临床相关信息。该数据库主要包含样品来源、诊断方法、样品处理过程、质谱检测方法、血清多肽质谱数据等内容。该数据库主要提供了下列重要功能:血清多肽图查询,通过该系统,用户可获得特定肿瘤的血肽图的标志谱峰及其对应的多肽序列;各种疾病血肽图数据的提交,通过此系统,研究人员可以将自己实验室收集的疾病血肽图数据,提交到本数据库中,从而丰富了数据库中的疾病种类;血肽图疾病信息分析,检测人员将临床获得的血肽图直接通过本数据库进行查询,从而得到疾病相关信息。2.血肽图数据处理与分析的软件开发为了快速准确地开展以血肽图数据为基础的肿瘤分类与分型研究,开发了血多肽数据处理与分析模块。数据处理模块可实现对获得的血肽图质谱数据实现质谱图展示、数据导入、导出、格式转化和预处理等功能。数据分析模块具有对预处理后的数据进行统计学分析,找到特征谱峰,建立血肽图模型,对盲样进行判别等功能,可实现快速、自动化发现生物标志物等相关分析。3.基于血肽图数据的肿瘤分类与分型研究以支持向量机(SVM)、主成分分析(PCA)、遗传算法(GA)、朴素贝叶斯方法(Na?ve Bayes)和偏最小二乘法(PLS)等常用的统计学及机器学习方法为工具,以血肽图数据库中的数据为基础,构建了基于血肽图数据的肿瘤分类与分型模块,并提供模型参数优化功能,便于相关人员开展肿瘤分类与分型研究工作。4.肿瘤特征性血肽图模型建立该研究是与国家仪器分析中心合作开展的。在前期工作中,国家仪器分析中心已经完成了1000例健康人群和2000多例肺癌、肝癌、乳腺癌、直肠癌、前列腺癌和白血病等肿瘤患者的血肽图高分辨质谱数据采集。在此基础上,运用BioSunMS系统对数据库中254例肺癌组以及257例正常对照组的血肽图进行分析。首先,我们以150例肺癌组样本和150例对照组样本的血肽图数据构建了训练集,剩余104例肺癌组样本和107例正常对照组样本的血肽图构建了测试集。通过t检验进行变量选择,以P<0.005为标准,筛选出74个特征谱峰。以这些变量为基础,我们采用SVM方法构建了肺癌血肽图的分类模型,并用测试集进行了验证。对于测试集,分类准确度、敏感性和特异性分别是92.3%,96.3%,94.3%。通过上述分析,我们发现了一些肺癌特征质谱谱峰信息,并以这些谱峰信息为特征,构建了基于质谱血肽图的肺癌早期诊断模型,对肺癌的早期诊断研究进行了初步的探索。综上所述,该研究构建了一个集质谱血清多肽组谱图的数据库管理和分析为一体的软件BioSunMS,并应用该系统对肺癌血肽图数据进行了初步分析,构建了肺癌血肽图早期诊断模型,为基于质谱血肽图的相关研究提供了生物信息学支持。

论文目录

  • 中文摘要
  • 英文摘要
  • 第一章 前言
  • 1.1 血肽图技术国内外研究现状
  • 1.2 现有的生物信息学工具
  • 1.3 小结
  • 第二章 血清多肽组谱图数据库的构建
  • 2.1 血清多肽组谱图数据
  • 2.2 数据库管理系统MySQL
  • 2.3 数据库设计工具DB Designer 4
  • 2.4 血肽图数据库设计
  • 2.5 结果与讨论
  • 第三章 血清多肽组谱图管理分析系统BioSunMS 的构建
  • 3.1 BioSunMS 的需求分析
  • 3.2 BioSunMS 的设计与实现
  • 3.2.1 BioSunMS 的设计
  • 3.2.2 BioSunMS 的工作流程
  • 3.2.3 BioSunMS 的Plug-in 机制
  • 3.2.4 BioSunMS 的质谱数据读取和预处理
  • 3.2.5 BioSunMS 基于R 语言的统计分析环境
  • 3.3 结果与讨论
  • 第四章 应用BioSunMS 对肺癌血肽图样本进行分型与分类研究
  • 4.1 概述
  • 4.2 方法与数据
  • 4.2.1 样品收集
  • 4.2.2 血清多肽提取
  • 4.2.3 质谱检测
  • 4.2.4 患者数据录入和质谱数据导入
  • 4.2.5 数据准备
  • 4.3 BioSunMS 的应用
  • 4.3.1 特征峰提取与对齐
  • 4.3.2 变量选择
  • 4.3.3 构建模型
  • 4.3.4 模型评价
  • 4.3.5 聚类分析
  • 4.4 结果与讨论
  • 4.4.1 样本临床信息
  • 4.4.2 变量选择
  • 4.4.3 肺癌血肽图早期诊断模型构建
  • 4.4.4 聚类分析
  • 第五章 结论
  • 参考文献
  • 附录
  • 文献综述
  • 血清多肽组谱图的生物信息学
  • 1 质谱数据的获取和预处理
  • 2 聚类分析
  • 3 分类研究
  • 4 展望
  • 5 参考文献
  • 发表论文
  • 个人简历
  • 致谢
  • 相关论文文献

    • [1].浅谈几种同分异构体的质谱解析[J]. 大学化学 2020(02)
    • [2].质谱流式技术用于单细胞检测[J]. 中国细胞生物学学报 2020(02)
    • [3].更深度的“照相”技术——质谱成像的发展与应用[J]. 大学化学 2020(03)
    • [4].质谱分子成像的研究进展[J]. 中国科学:生命科学 2020(11)
    • [5].稳定同位素质谱在食品真假鉴定和产地溯源中的应用[J]. 食品安全导刊 2017(25)
    • [6].利用高效液相色谱-串联质谱追踪酸奶发酵过程中的酪蛋白磷酸肽[J]. 色谱 2017(06)
    • [7].人群尿液中铬元素的电感耦合等离子体-质谱快速测定法[J]. 职业与健康 2017(17)
    • [8].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(06)
    • [9].北京质谱年会岛津质谱技术获关注[J]. 中国食品 2014(10)
    • [10].2012年第四届世界华人质谱研讨会的通知[J]. 质谱学报 2012(01)
    • [11].2012年第四届世界华人质谱研讨会的通知[J]. 质谱学报 2012(02)
    • [12].中国质谱学会李金英理事长带队参加第二届亚太地区质谱年会[J]. 质谱学报 2011(05)
    • [13].2010年全国质谱大会暨第三届世界华人质谱研讨会第一轮通知[J]. 质谱学报 2010(01)
    • [14].2010年全国质谱大会暨第三届世界华人质谱研讨会第一轮通知[J]. 质谱学报 2010(02)
    • [15].2021年中国质谱学术大会(杭州)[J]. 分析化学 2020(11)
    • [16].一种新的生物组织质谱成像方法及仪器集成[J]. 华南师范大学学报(自然科学版) 2016(06)
    • [17].《环渤海色质谱绿色新技术》[J]. 分析化学 2016(12)
    • [18].甲醇和乙醇在氩气-实时直接分析质谱中的应用[J]. 应用化学 2017(06)
    • [19].基于离子液体基质的大豆中寡糖成分基质辅助激光解吸电离-质谱成像分析[J]. 分析化学 2017(08)
    • [20].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(04)
    • [21].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(05)
    • [22].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(02)
    • [23].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(03)
    • [24].信立方质谱培训中心2014年线下培训计划[J]. 分析测试技术与仪器 2014(01)
    • [25].信立方质谱培训中心2014年线下培训计划[J]. 分析化学 2014(07)
    • [26].突破质谱极限[J]. 中国医药工业杂志 2014(07)
    • [27].信立方质谱培训中心2014年线下培训计划[J]. 中国稀土学报 2014(05)
    • [28].常压敞开式离子化质谱在肿瘤诊断中的研究进展[J]. 分析测试学报 2020(01)
    • [29].ICP-MS在食品检测中的干扰及其消除[J]. 农产品加工 2020(15)
    • [30].便携式质谱在职业与环境卫生检测中的应用[J]. 中国工业医学杂志 2018(02)

    标签:;  ;  ;  ;  

    基于质谱血清多肽组谱图的管理分析系统构建与应用研究
    下载Doc文档

    猜你喜欢