论文题目: 随机蛋白质序列全局对位最优分的理论分布研究
论文类型: 硕士论文
论文专业: 生物化学与分子生物学
作者: 庞红侠
导师: 陶士珩
关键词: 全局对位,随机序列,伽玛分布,正态分布
文献来源: 西北农林科技大学
发表年度: 2005
论文摘要: 序列对位是最常用的一类生物信息学研究方法。它在序列的功能、结构及进化关系预测、数据库搜索,系统发生树构建等方面有着广泛用途。然而,序列对位所得到的分值本身并不能说明太多问题,还需要进一步判定它在统计上是否显著,即随机得到这个得分的概率有多大,从而推断其在生物学上的意义。本研究目的是找出随机蛋白质序列得分的理论分布,从而为从序列对位的统计显著性推断出生物显著性奠定基础。 本研究中选用了真实不相关序列和五种随机序列作为背景序列,利用Needleman-Wunsch算法,对其进行全局对位,然后将对位得分与伽玛分布、正态分布和极值分布进行拟合分析,研究全局对位最优分的理论分布。 本研究中的真实不相关序列取自SCOP数据库,利用三种标准得到了各自的序列文件,即序列相似度小于10%的序列,E-value大于10的序列,以及取自不同折叠的代表序列。并对这些序列进行了处理,得到序列长度相似的一系列序列文件。本研究中的五种随机序列也是从SCOP数据库中随机抽取11对长度不同的不相关序列,采用不同的方法进行随机化,从而得到五种随机序列。这五种序列随机化方法分别是:1)根据序列长度和蛋白质平均氨基酸组成随机产生序列(ACL);2)根据原始序列的氨基酸组成分布和序列长度随机产生序列(CLA);3)对整条序列全局重排以保持氨基酸组成不变(GS);4)将序列分为几块,块内进行局部重排而产生随机序列,以保持局部序列氨基酸组成不变(LS);5)根据PAM突变矩阵模拟序列进化过程,使原始序列发生突变产生随机序列(SMP)。 本研究选择了四个得分矩阵—PAM120、PAM250、BLOSUM50和BLOSUM62,采用了仿射的(affine)和固定的罚分方法,对序列末尾同样罚分来进行全局对位分析。对于真实不相关序列,在每一个序列文件中的各对序列之间分别进行了全局对位;ACL和SMP序列则是一条原始序列与对另一条序列随机化后产生的新序列进行全局对位,然后再反过来:CLA、GS和LS序列则是一次产生一对随机序列,对其进行全局对位。然后将上面得到的各组得分作为样本,分别将其与三参数伽玛分布、正态分布和Gumbel极值分布进行分布函数拟合分析。 结果显示,三参数伽玛分布与所有组得分的拟合效果都很好,极值分布与所有组得分的拟合效果都不理想,而正态分布只有在三参数伽玛分布的位置参数很大时,有很好的拟合效果,因为这种情况下,正态分布是伽玛分布的极限分布。另外我们还发现,随着序列长度的增加,拟合得到的三参数伽玛分布的形状参数也增加,尺度参数却同时减小;随着局部重排块(window)的增大,三参数伽玛分布的形状参数减小;而采用哪种得分矩阵,对全局对位最优分的理论分布的影响并不大。
论文目录:
中文摘要
英文摘要
第1章 相关文献综述
1.1 统计显著性和生物显著性
1.2 序列对位理论
1.2.1 对位算法
1.2.2 得分矩阵
1.2.3 罚分系统
1.3 序列对位的显著性研究现状
1.4 本研究的内容和意义
第2章 序列的选择和处理
2.1 序列的选择
2.2 序列的随机化处理
2.2.1 根据平均氨基酸组成产生随机序列(ACL)
2.2.2 根据真实序列的氨基酸组成分布和序列长度产生随机序列(CLA)
2.2.3 全局重排(CS)
2.2.4 局部重排(LS)
2.2.5 根据PAM矩阵模拟序列进化过程产生随机序列(SMP)
2.3 真实不相关序列的选择和处理
第3章 序列的全局对位
3.1 得分系统的确定
3.2 全局对位程序设计
3.2.1 共用程序的设计
3.2.2 不同序列的对位程序设计
第4章 对位得分的分布拟合
4.1 备选拟合分布
4.2 备选分布的参数估计
4.2.1 伽玛分布的参数估计
4.2.2 正态分布的参数估计
4.2.3 极值分布的参数估计
4.3 备选分布的函数拟合(卡方检验)
4.3.1 卡方检验和皮尔逊定理
4.3.2 程序设计流程
4.3.3 拟合结果
第5章 结果和讨论
5.1 研究结果
5.1.1 序列长度对拟合得到的三参数伽玛分布的影响
5.1.2 块大小(window size)对拟合得到的三参数伽玛分布的影响
5.1.3 得分系统对拟合得到的三参数伽玛分布的影响
5.2 与前人工作的比较以及有待进一步研究的问题
参考文献
致谢
作者简介
发布时间: 2007-04-06
参考文献
- [1].基于位置序列的蛋白质序列相似性分析及其应用[D]. 王磊.西北农林科技大学2018
- [2].基于氨基酸理化性质和位置特征的蛋白质序列比较及其应用[D]. 于璐璐.山东大学2018
- [3].基于深度学习的蛋白质序列分类问题的研究与应用[D]. 邵丽芬.电子科技大学2018
- [4].基于集成学习的蛋白质序列分类问题的研究[D]. 赵欣.电子科技大学2018
- [5].蛋白质序列的数值特征提取方法与应用[D]. 宋田.燕山大学2017
- [6].基于广义伪氨基酸组成的蛋白质序列的数值刻画[D]. 李雪琴.渤海大学2017
- [7].蛋白质序列和结构关系研究[D]. 李明锋.华中科技大学2005
- [8].蛋白质序列特征表达及其在亚细胞定位预测中的应用[D]. 贺晓梅.湖南大学2012
- [9].蛋白质序列模式在细菌基因发现中的应用[D]. 周大为.江南大学2013
- [10].基于粒度下的蛋白质序列的分析[D]. 张堃.江南大学2011
相关论文
- [1].人类基因组中血清反应因子(SRF)潜在顺式作用元件搜索及其特征研究[D]. 李峥刚.西北农林科技大学2011
- [2].相邻位点碱基突变的熵性质[D]. 张银霞.西北农林科技大学2009
- [3].生物序列比对算法研究[D]. 刘燕.第三军医大学2008
- [4].酵母基因上游转录因子结合位点分布的统计分析[D]. 梁丽静.西北农林科技大学2008
- [5].点突变的熵性质[D]. 马国际.西北农林科技大学2008
- [6].CG抑制作用是影响禽流感病毒同义密码子使用的重要因素[D]. 樊少华.西北农林科技大学2008
- [7].人类18号染色体同质段的进化研究[D]. 李明锟.西北农林科技大学2007
- [8].物种突变率多样性的研究[D]. 王小娟.西北农林科技大学2007
- [9].生物序列的比对算法比较研究[D]. 朱贤芳.南京理工大学2005
- [10].蛋白质序列和结构关系研究[D]. 李明锋.华中科技大学2005