基于序列信息预测选择性剪接位点和盒式外显子

基于序列信息预测选择性剪接位点和盒式外显子

论文摘要

真核生物基因序列包括编码的外显子序列和不编码的内含子序列,在转录过程中内含子被切除,外显子将有序的拼接在一起形成mRNA。而选择性剪接使得一个基因序列有多种剪接方式,并能产生不同的mRNA,进而编码多种蛋白质,选择性剪接是蛋白质多样性的重要来源。选择性剪接普遍存在于真核生物基因组中,人类基因组中一半以上基因存在选择性剪接,而且选择性剪接存在于不同组织细胞和不同发育阶段,贯穿整个生命过程,并与疾病密切相关。ESTS和微阵列实验是目前确定选择性剪接事件的主要来源,但这些实验方法操作复杂,并有很多不足之处。如何用理论和计算的方法识别和预测选择性剪接是目前生物信息学研究工作的重要任务。本文将基于基因组局部序列信息,用WebLogo、序列信息参量Mni和统计检验方法分析序列,并提取序列特征;用位置权重矩阵、离散增量、支持向量机和马氏距离判别式对选择性剪接事件进行了预测;并对剪接位点竞争机制和回文序列等选择性剪接有关机制进行了进一步研究。论文主要研究内容如下:1.首次运用位置权重矩阵和离散增量结合支持向量机的方法,基于序列信息预测分类了选择性5′╱3′剪接位点和假剪接位点。结果显示,我们的方法特异性为85.62%(81.19%)时,能预测88.74%(90.86%)的选择性5′(3′)剪接位点。2.基于剪接位点竞争机制,以序列特征为参数,用位置权重矩阵和离散增量结合支持向量机的方法预测了人类和小鼠的选择性5′/3′剪接位点和组成性剪接位点。我们的方法可以对67.88%(71.63%)的人类供体(受体)位点进行正确分类。供体位点的预测成功率接近目前最好的预测方法,受体位点的预测成功率高于目前最好的预测方法4~5%。并且我们的方法对小鼠选择性5′/3′剪接位点预测成功率可达到72%,可知我们的方法预测性能好,并具有一定的普适性和推广能力。3.以位置权重矩阵打分函数值来表示剪接位点强度,以打分函数相减值来表示剪接位点竞争机制,并基于剪接位点竞争机制,以打分函数相减值为唯一参数,预测了选择性5′/3′剪接位点。预测成功率与目前最好的预测结果相当。预测结果证明我们找到了表示剪接位点竞争机制的一个最佳参数:打分函数相减值。4.统计分析了盒式外显子和组成性外显子的序列长度、长度被3整除序列的比例、两侧剪接位点保守性等序列特征。用t检验方法统计计算了左侧内含子序列、右侧内含子序列和外显子序列的三联体组分信息,得到了CCT等差异显著的三联体。并基于上述序列特征用位置权重矩阵和离散增量结合支持向量机的方法,位置权重矩阵和离散增量结合马氏距离的二次判别方法对盒式外显子进行了预测。两种预测方法均约为60%。5.统计了盒式外显子两侧序列中的回文序列和两侧序列相互之间形成的回文序列,并与组成性外显子和随机序列的回文特征进行了比较。发现组成性外显子回文密度高于盒式外显子回文密度,并高于随机序列回文密度2~3倍。此统计比较结果为选择性剪接来源于组成性剪接的理论提供了又一个依据。6.本文还统计了肿瘤特异性剪接位点的序列特征,运用位置权重矩阵和离散增量结合支持向量机的方法预测了肿瘤特异性剪接位点,其成功率为62%,高于其它文献的结果。7.本文中首次把不同的选择性剪接模式产生的选择性供体(受体)位点归为一类,即把剪接位点分成选择性供体位点、选择性受体位点、组成性供体位点和组成性受体位点四个大类,进行了分析和预测。基于线虫选择性剪接数据的预测结果显示,把剪接位点分为四大类是可行的,这对今后的选择性剪接位点研究工作提供了一个新思路。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 真核生物剪接机制
  • 1.2 选择性剪接的概念
  • 1.3 选择性剪接的调节机制和生物学意义
  • 1.4 国内外研究现状
  • 1.4.1 选择性剪接的数据来源
  • 1.4.2 基于EST数据的建库方法
  • 1.4.3 非基于EST的选择性剪接研究
  • 1.5 常用选择性剪接数据库
  • 1.6 ASD数据库
  • 1.6.1 AltSplice子数据库
  • 1.6.2 AltExtron子数据库
  • 1.6.3 AEDB子数据库
  • 1.7 ASAP数据库
  • 1.8 论文的研究内容与安排
  • 第二章 算法
  • 2.1 分类算法小结
  • 2.2 位置权重矩阵
  • 2.3 离散量与离散增量
  • 2.3.1 离散量
  • 2.3.2 离散增量
  • 2.4 支持向量机
  • 2.4.1 SVM理论
  • 2.4.2 SVM软件
  • 2.5 组合支持向量机
  • 2.6 马氏距离判别
  • 2.7 位点保守性差异的比较
  • 2.7.1 WebLogo方法
  • ni'>2.7.2 序列信息参量Mni
  • 2.8 t检验
  • 2.9 算法评价指标
  • 2.9.1 预测成功率评价指标
  • 2.9.2 ROC曲线
  • 第三章 预测选择性5′/3′剪接位点
  • 3.1 选择性剪接位点和假剪接位点的分类
  • 3.1.1 数据集
  • 3.1.2 序列差异性分析
  • 3.1.3 基于序列信息进行预测分类
  • 3.2 选择性剪接位点和组成性剪接位点的分类
  • 3.2.1 数据集
  • 3.2.2 序列差异性分析
  • 3.2.3 基于序列信息进行预测分类
  • 3.3 选择性剪接位点和不含选择性剪接基因剪接位点的分类
  • 3.3.1 数据集
  • 3.3.2 序列差异性分析
  • 3.3.3 基于序列信息进行预测分类
  • 3.4 小鼠基因组中选择性剪接位点和组成性剪接位点的分类
  • 3.4.1 数据集
  • 3.4.2 基于序列信息进行预测分类
  • 3.5 用一个参数表述剪接位点竞争机制
  • 3.5.1 预测步骤
  • 3.5.2 预测结果
  • 第四章 预测盒式外显子
  • 4.1 数据集
  • 4.2 序列特征分析
  • 4.3 基于序列信息进行分类预测
  • 4.4 回文序列特征
  • 4.5 与随机核酸序列进行比较
  • 第五章 癌症特异性剪接位点的预测
  • 5.1 数据集
  • 5.2 位点保守性分析
  • 5.3 癌症特异性剪接位点的预测
  • 第六章 把剪接位点分为四大类进行预测
  • 6.1 数据集
  • 6.2 选取序列信息参数
  • 6.3 预测结果
  • 第七章 总结与展望
  • 7.1 本文工作总结
  • 7.2 工作展望
  • 参考文献
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于序列信息预测选择性剪接位点和盒式外显子
    下载Doc文档

    猜你喜欢