基于新一代测序技术及高分辨率质谱技术的人类蛋白质组学研究

论文摘要

系统全面的注释人类基因以及其编码的蛋白产物是人类基因组学研究的核心内容。本研究综合基于实验验证和人工注释的人类标准蛋白质数据库Swiss-Prot, RefSeq以及基于信息学预测和电子注释的人类预测蛋白质数据库TrEMBL, Ace View构建了一个包含278,101个蛋白质及其可变剪接体的人类蛋白质参考数据集。并通过国际合作从EBI-PRIDE, NCBI-Peptidome和NIST三个国际蛋白质组学资源中心以及北京蛋白质组学研究中心国家重点实验室获取了近7万组来自于不同生物组织和生理条件的人类蛋白质组学质谱数据。在此基础上基于Galaxy平台整合翻译后修饰识别,综合质量控制等自主开发分析工具和已有蛋白质组学分析软件,构建了在线高性能并行化蛋白质组学分析平台Firmiana,服务于本次研究以及中国人类蛋白质计划和国家蛋白质科学基础设施—北京基地（简称“凤凰工程”）的大规模蛋白质组学数据分析工作。通过Firmiana平台基于收集到的1.8亿串联质谱谱图资源,累计鉴定了249,688个来至于156,970个人类蛋白质的非冗余肽段。通过比对分析这些肽段与新一代测序质控标准联盟（SEQC）产生的大量新一代测序得到的表达谱读段在染色体上的位置以及对应的编码基因信息,我们验证了三大人类基因组注释体系下的蛋白编码基因表达情况（RefSeq:89.3%, AceView:59.5%, ENCODE:86.6%）。在这些编码基因中包含了15,745个来自于AceView预测的未在其它人类基因注释体系中出现但在人类组织中广泛表达的新基因。我们综合cDNA, RNA-Seq, MS/MS三个水平的实验数据,对鉴定蛋白质的可信度进行了进一步的评估,并利用已有蛋白质组学研究信息基于序列同源性和功能域识别等策略,对鉴定到的蛋白质进行了进一步的结构和功能注释,此外,通过比对蛋白肽段和基因结构注释信息,本研究还发现了一定数量的非典型性转录事件,如罕见Kozak序列等。以上研究结果以及来源于cDNA, RNA-seq和MS/MS层面的注释信息及原始实验数据信息被进一步整合归档在SHuPP （SEQC人类蛋白质研究平台）中。SHuPP同时还基于本研究获取的17,633,234个高质量肽段谱图构建了人类高质量先验肽段数据集,并提供了在线搜索工具和离线数据包,这一系统全面的人类蛋白质注释资源将会有力的推动和加速人类基因组注释及蛋白质组学研究。

论文目录

摘要

Abstract

第1章引言

1.1 蛋白质组研究现状

1.1.1 蛋白质的理化特征及生物功能

1.1.2 鸟枪法蛋白质组学

1.1.3 蛋白质组学研究中的定性及定量分析策略

1.2 新一代测序技术概述

1.2.1 核酸测序技术发展概况

1.2.2 新一代测序技术质控联盟及其工作重心

第2章人类蛋白质组学数据收集与注释

2.1 研究背景

2.1.1 蛋白质组学数据存储及共享格式规范

2.1.2 蛋白质组学数据格式转化工具

2.2 人类蛋白质组学数据收集及格式转换

2.3 人类蛋白质组学实验数据注释及初步筛选

2.4 本章小结

第3章人类蛋白质组参考数据库构建

3.1 研究背景

3.1.1 Swiss-Prot蛋白数据库

3.1.2 TrEMBL蛋白数据库

3.1.3 RefSeq蛋白数据库

3.1.4 AceView蛋白注释资源

3.1.5 ENCODE蛋白注释资源

3.2 人类蛋白组参考数据库构建

3.3 本章小结

第4章 Firmiana高通量自动化蛋白质组学并行分析平台构建

4.1 研究背景

4.1.1 蛋白质理论数据库搜索软件

4.1.2 蛋白质组整合数据分析工具集

4.1.3 MPI环境并行化程序开发与优化

4.1.4 Galaxy综合信息学服务平台

4.2 Firmiana平台架构及工具部署

4.2.1 Firmiana数据模块及技术架构

4.2.2 Galaxy Proteome工具集

4.2.3 Firmiana工作流系统

4.2.4 Gardener数据综合分析及展示工具

4.3 人类蛋白质组学数据分析流程

4.4 本章小结

第5章蛋白质鉴定结果及质量控制

5.1 研究背景

5.1.1 大规模异质性蛋白质组学数据整合

5.2 蛋白质组学数据分析及质量控制

5.3 蛋白质鉴定结果

5.4 本章小结

第6章蛋白质综合注释及相关信息学分析

6.1 研究背景

6.1.1 蛋白质功能注释

6.1.2 基因及转录本表达水平注释

6.1.3 罕见基因表达事件

6.2 蛋白质综合注释

6.3 基因表达分析和罕见基因表达事件

6.4 本章小结

第7章 SHuPP在线蛋白质组学服务资源

7.1 研究背景

7.1.1 LAPM架构

7.1.2 SHELL语言环境下的程序调用

7.1.3 HTML语言和基于JAVASCRIPT的交互式应用开发

7.2 肽段先验数据集和在线质谱数据分析工具

7.3 SHuPP在线蛋白检索注释系统

7.4 本章小结

第8章结语

8.1 讨论

8.2 展望

附录A 蛋白质鉴定平台相关软件运行参数

附录B 在线分析平台主程序核心框架

参考文献

后记

基于新一代测序技术及高分辨率质谱技术的人类蛋白质组学研究

论文摘要

论文目录

相关论文文献

猜你喜欢