
论文摘要
系统全面的注释人类基因以及其编码的蛋白产物是人类基因组学研究的核心内容。本研究综合基于实验验证和人工注释的人类标准蛋白质数据库Swiss-Prot, RefSeq以及基于信息学预测和电子注释的人类预测蛋白质数据库TrEMBL, Ace View构建了一个包含278,101个蛋白质及其可变剪接体的人类蛋白质参考数据集。并通过国际合作从EBI-PRIDE, NCBI-Peptidome和NIST三个国际蛋白质组学资源中心以及北京蛋白质组学研究中心国家重点实验室获取了近7万组来自于不同生物组织和生理条件的人类蛋白质组学质谱数据。在此基础上基于Galaxy平台整合翻译后修饰识别,综合质量控制等自主开发分析工具和已有蛋白质组学分析软件,构建了在线高性能并行化蛋白质组学分析平台Firmiana,服务于本次研究以及中国人类蛋白质计划和国家蛋白质科学基础设施—北京基地(简称“凤凰工程”)的大规模蛋白质组学数据分析工作。通过Firmiana平台基于收集到的1.8亿串联质谱谱图资源,累计鉴定了249,688个来至于156,970个人类蛋白质的非冗余肽段。通过比对分析这些肽段与新一代测序质控标准联盟(SEQC)产生的大量新一代测序得到的表达谱读段在染色体上的位置以及对应的编码基因信息,我们验证了三大人类基因组注释体系下的蛋白编码基因表达情况(RefSeq:89.3%, AceView:59.5%, ENCODE:86.6%)。在这些编码基因中包含了15,745个来自于AceView预测的未在其它人类基因注释体系中出现但在人类组织中广泛表达的新基因。我们综合cDNA, RNA-Seq, MS/MS三个水平的实验数据,对鉴定蛋白质的可信度进行了进一步的评估,并利用已有蛋白质组学研究信息基于序列同源性和功能域识别等策略,对鉴定到的蛋白质进行了进一步的结构和功能注释,此外,通过比对蛋白肽段和基因结构注释信息,本研究还发现了一定数量的非典型性转录事件,如罕见Kozak序列等。以上研究结果以及来源于cDNA, RNA-seq和MS/MS层面的注释信息及原始实验数据信息被进一步整合归档在SHuPP (SEQC人类蛋白质研究平台)中。SHuPP同时还基于本研究获取的17,633,234个高质量肽段谱图构建了人类高质量先验肽段数据集,并提供了在线搜索工具和离线数据包,这一系统全面的人类蛋白质注释资源将会有力的推动和加速人类基因组注释及蛋白质组学研究。
论文目录
摘要Abstract第1章 引言1.1 蛋白质组研究现状1.1.1 蛋白质的理化特征及生物功能1.1.2 鸟枪法蛋白质组学1.1.3 蛋白质组学研究中的定性及定量分析策略1.2 新一代测序技术概述1.2.1 核酸测序技术发展概况1.2.2 新一代测序技术质控联盟及其工作重心第2章 人类蛋白质组学数据收集与注释2.1 研究背景2.1.1 蛋白质组学数据存储及共享格式规范2.1.2 蛋白质组学数据格式转化工具2.2 人类蛋白质组学数据收集及格式转换2.3 人类蛋白质组学实验数据注释及初步筛选2.4 本章小结第3章 人类蛋白质组参考数据库构建3.1 研究背景3.1.1 Swiss-Prot蛋白数据库3.1.2 TrEMBL蛋白数据库3.1.3 RefSeq蛋白数据库3.1.4 AceView蛋白注释资源3.1.5 ENCODE蛋白注释资源3.2 人类蛋白组参考数据库构建3.3 本章小结第4章 Firmiana高通量自动化蛋白质组学并行分析平台构建4.1 研究背景4.1.1 蛋白质理论数据库搜索软件4.1.2 蛋白质组整合数据分析工具集4.1.3 MPI环境并行化程序开发与优化4.1.4 Galaxy综合信息学服务平台4.2 Firmiana平台架构及工具部署4.2.1 Firmiana数据模块及技术架构4.2.2 Galaxy Proteome工具集4.2.3 Firmiana工作流系统4.2.4 Gardener数据综合分析及展示工具4.3 人类蛋白质组学数据分析流程4.4 本章小结第5章 蛋白质鉴定结果及质量控制5.1 研究背景5.1.1 大规模异质性蛋白质组学数据整合5.2 蛋白质组学数据分析及质量控制5.3 蛋白质鉴定结果5.4 本章小结第6章 蛋白质综合注释及相关信息学分析6.1 研究背景6.1.1 蛋白质功能注释6.1.2 基因及转录本表达水平注释6.1.3 罕见基因表达事件6.2 蛋白质综合注释6.3 基因表达分析和罕见基因表达事件6.4 本章小结第7章 SHuPP在线蛋白质组学服务资源7.1 研究背景7.1.1 LAPM架构7.1.2 SHELL语言环境下的程序调用7.1.3 HTML语言和基于JAVASCRIPT的交互式应用开发7.2 肽段先验数据集和在线质谱数据分析工具7.3 SHuPP在线蛋白检索注释系统7.4 本章小结第8章 结语8.1 讨论8.2 展望附录A 蛋白质鉴定平台相关软件运行参数附录B 在线分析平台主程序核心框架参考文献后记
相关论文文献
标签:人类蛋白质组学论文; 高效液相色谱质谱联用技术论文; 新一代测序技术论文;
基于新一代测序技术及高分辨率质谱技术的人类蛋白质组学研究
下载Doc文档