原核生物蛋白质编码区识别及基因组序列分析

论文题目: 原核生物蛋白质编码区识别及基因组序列分析

论文类型: 博士论文

论文专业: 生物物理学

作者: 郭锋彪

导师: 张春霆

关键词: 曲线,细菌和古细菌基因组,病毒基因组,基因识别

文献来源: 天津大学

发表年度: 2005

论文摘要: 随着DNA测序技术的进步,迄今为止已有接近三百多种原核生物完成测序。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要研究内容是原核生物的蛋白质编码基因识别算法和基因组分析。论文第一部分首先介绍了生物信息学的发展背景及主要研究内容、主要的蛋白质基因识别算法以及DNA序列的Z曲线理论及其应用。Z曲线理论是我们分析原核生物基因组的主要工具,论文第二部分是围绕细菌和古细菌基因识别问题展开的。论文第二部分主要围绕原核生物基因识别问题展开的。首先分析了Aeropyrum　pernix　K1基因组中原始注释为可能基因的2694　ORFs的碱基构成。结果发现他们按照三个密码子位的核酸构成共被分为三类(A,B,C)。依据聚类算法本文提出了一个编码指标AZ。结果,Aeropyrum　pernix基因组中蛋白质编码基因的数目被重新确定为1610个。这个数目显著低于原始注释的2694,也明显低于NCBI工作人员手工检查过的RefSeq重新注释的1841。接下来提出了一种新的识别细菌和古细菌基因组蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE　1.0。选用18　个没有用Glimmer　注释的细菌或古细菌基因组将ZCURVE　1.0　和Glimmer　2.02　进行全面比较。结果表明,两种算法的平均识别率相当;但是,ZCURVE　1.0　具有更低的附加预测率,更高的基因起始和水平转移基因识别率。尤其对高G+C　含量基因组,ZCURVE　1.0表现出明显的优势。将两种算法联合使用,预测成绩显著提高。接下来,又提出了一种新的病毒和噬菌体蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE_V　1.0。该算法和ZCURVE　1.0一样是以相位特异性的Z曲线理论为基础,使用33个参数来描述编码序列。但是在ZCURVE　1.0中使用的判别方法是Fisher判别,而在ZCURVE_V　1.0中使用的是欧氏距离判别,另外在ZCURVE_V　1.0的算法中没有使用负样本。通过对比发现对于长度低于100　kb的病毒和噬菌体基因组ZCURVE_V的预测成绩要优于GeneMark。此外,提出了一种基于自训练的细菌基因起始的预测算法GS-Finder。　论文的第三部分是原核生物基因组序列分析。利用Z曲线方法研究复制链的不对称性。使用Z曲线方法发现Chlamydia　muridarum基因组具有分离的碱基使用。根据由变量u1 ? u9张成的9维空间的位置,K-means聚类方法能够把所有基因中的94%聚到正确的复制链。碱基使用和密码子使用表明前导链的基因具有的碱基G比C更多,碱基T比A更多,尤其在第三密码子位。滞后链的基因情况则相反。染色体序列Z曲线的y分量表明上面的四个基因组G/C和T/A链偏异比其他基因组强烈得多。不同寻常的G/C和T/A链偏异导致了这四个基因组分离的密码子使用和碱基使用。从系统发育的观点来开,这四个基因组属于两个不同的门,这两个门被聚到了一起。接下来我们考察高GC含量基因组编码序列和非编码ORFs　的分布情况。我们发现了一个有趣的七类现象:对于高G+C　含量基因组,ORFs　在9　维空间中聚成7　类,呈花状结构,6个花瓣状区域围绕着1　个中心区域。中心区域对应基因间序列。在6　个花瓣状区域中,其中1　个区域对应编码序列,其它5　个区域分别对应5　个非编码阅读框上的非编码ORFs。但是,在中等或低G+C　含量的细菌基因组中,没有观察到类似现象。

论文目录:

中文摘要

Abstract

绪论

1.1 原核生物基因组

1.2 生物信息学及其主要内容

1.3 基因识别算法

1.4 本论文的主要工作

第一章 DNA序列的Z曲线理论

1.1 DNA序列的Z曲线理论

1.2 Z曲线理论的应用

第二章以核酸分布为基础对超嗜热嗜泉生古细菌Aeropyurm pernix K1基因组基因进行识别

2.1 引言

2.2 材料与方法

2.2.1 数据库

2.2.2 Z曲线方法

2.3 结果与讨论

2.3.1 三类现象和它的内在起因

2.3.2 重新识别的蛋白质编码基因集

2.3.3 聚到类B和类C中的ORFs的起源

2.3.4 分析不同类ORFs的核酸组成

2.3.5 当前方法的准确率

2.3.6 和其他研究者重新注释的对比

2.3.7 网络服务

第三章细菌、古细菌基因识别程序ZCURVE1.0

3.1 引言

3.2 材料和方法

3.2.1 寻找细菌或者古细菌基因组中所有的ORFs和种子ORF

3.2.2 基因识别的核心算法

3.2.3 排除重叠ORFs的策略

3.2.4 起始位点预测方法

3.3 结果和讨论

3.3.1 评价算法的指标

3.3.2 与Glimmer2.02对比之一：所有注释的基因和功能已知的基因.

3.3.3 与Glimmer2.02对比之二：短基因和水平转移基因

3.3.4 与Glimmer2.02对比之三：基因起始位点预测

3.3.5 与Glimmer2.02对比之四：基因预测的伪正率

3.3.6 对G＋C含量超过56%的基因组寻找种子ORFs

3.3.7 高GC含量基因组9维空间的聚类及多次Fisher判别

3.3.8 联合使用ZCURVE1.0和Glimmer2.02

3.4 结论

第四章 ZUCRVE_V：一个新的自训练病毒、噬菌体基因识别程序

4.1 引言

4.2 材料和方法

4.3 结果和讨论

4.3.1 评价ZCURVE_V的指标

4.3.2 和GeneMark对比之一：具有不同染色体长度的病毒基因组

4.3.3 和GeneMark对比之二：具有专门特征的病毒基因组

4.3.4 应用ZCURVE_V分析HIV-1、HBV和SARS－CoV基因组

4.3.5 被RefSeq注释和GenBank注释错过的新基因

4.3.6 翻译起始位点预测

4.3.7 解释翻译起始位点预测方法的有效性

4.3.8 可能的减少伪正预测的方法

4.3.9 预测基因的功能和他们VZ分数之间的关系

4.3.10 在匿名的病毒基因组注释过程中优先使用ZCURVE_V

4.3.11 ZCURVE_V和GeneMark基因识别家族的联合使用

第五章 Z曲线方法揭示的Chlamydia muridarum基因组的链特异性的偏差

5.1 引言

5.2 材料和方法

5.2.1 数据库

5.2.2 Z曲线

5.3.3 相位特异性的Z曲线

5.2.4 主成分分析

5.2.5 K-means聚类方法

5.3 结果和讨论

5.3.1 u_1-u_9 的ＰＣＡ揭示的链特异性的密码子使用偏差

5.3.2 用u_1-u_9 的Ｋ－ｍｅａｎｓ聚类方法定量区分两条复制链上的的基因

5.3.3 密码子使用的偏差

5.3.4 为什么碱基（密码子）使用分离的现象只在特定的几个基因组中出现？

第六章高GC含量基因组ORFs碱基频率的分析

6.1 引言

6.2 数据库和方法

6.3 结果和讨论

6.4 结论

第七章细菌基因翻译起始位点的预测

7.1 引言

7.2 材料与方法

7.2.1 数据库

7.2.2 方法

7.2.3 自训练方法和种子ORFs

7.3 结果与讨论

7.3.1 用可靠的数据集检验自训练方法

7.3.2 作为基因识别程序的后处理器重新确定基因起始

总结论

参考文献

发表论文及参加科研情况说明

附录

致谢

发布时间: 2007-07-10

参考文献

[1].潮间带多细胞趋磁原核生物的显微分离、鉴定及系统进化研究[D]. 陈一然.中国科学院研究生院（海洋研究所）2014
[2].原核生物中调节子的研究和预测[D]. 马勤.山东大学2010
[3].微生物蛋白酰化修饰与合成代谢调控[D]. 徐骏宇.华东理工大学2017
[4].转录组数据的共表达分析和扩展应用[D]. 陈鑫.吉林大学2016
[5].基于冷冻电镜的原核生物核糖体小亚基组装过程的研究[D]. 郭强.清华大学2014
[6].核蛋白的亚核定位和植物、非植物及小鼠蛋白质的亚细胞定位预测研究[D]. 李凤敏.内蒙古大学2007

原核生物蛋白质编码区识别及基因组序列分析

猜你喜欢