人类基因PolyA位点预测

人类基因PolyA位点预测

论文摘要

mRNA 3’端的多聚腺苷酸化是真核细胞内mRNA转录后处理的三个最主要步骤之一。对DNA序列上发生多聚腺苷酸化的位置即PolyA位点的识别,对于理解mRNA的形成机制以及进行基因结构预测具有重要作用。在3’UTR区存在多个潜在PolyA位点时,选择性多聚腺苷酸化以组织或疾病特异性的方式影响着基因的表达。此外,在基因结构预测领域,对PolyA位点的准确识别有助于对基因3’末端的确定。本文对PolyA位点的形成机制以及位点周围序列的一级、二级和高级结构、选择性多聚腺苷酸化进行了研究,并重点分析总结了国际上目前在PolyA位点预测方面的发展现状与存在的问题.并从NCBI的Refseq数据库里提取出1835条注释的PolyA序列,对PolyA位点周围序列进行了六联体核苷酸频率统计分析,确定了PolyA位点上下游各100bp范围内的序列特征比较显著。本研究利用机器学习方法对PolyA位点进行预测,其实现过程分为以下三个步骤:特征的生成、特征的筛选、特征的综合分析聚类。首先,采取统计k阶核苷酸频率的方法来生成初始的特征;然后,通过信息学知识来对特征进行筛选;最后,使用SVM(support vector machines,支持向量机)的方法进行特征的综合分析,确定参数,建立预测模型。在独立的测试数据集上进行测试,当敏感度(Sn)为60%时,在内含子水平和外显子水平上的特异性(Sp)分别为71.67%和80.77%,在内含子水平上的预测精度明显优于国际上的同类软件。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题来源
  • 1.2 研究背景、目的和意义
  • 1.3 国内外研究现状
  • 2 PolyA 序列特征分析和讨论
  • 2.1 PolyA 位点的形成过程
  • 2.2 PolyA 信号
  • 2.3 下游元件
  • 2.4 PolyA 位点周围序列的二级结构
  • 2.5 选择性多聚腺苷酸化
  • 2.6 分析数据的获取
  • 2.7 PolyA 序列分析
  • 3 PolyA 位点预测模型的建立
  • 3.1 数据集的构建
  • 3.2 特征的产生
  • 3.3 特征的选择
  • 3.4 特征的综合分析和模型的构建
  • 3.5 模型的预测结果
  • 4 讨论与分析
  • 5 总结和展望
  • 致谢
  • 参考文献
  • 附录 攻读学位期间发表论文
  • 相关论文文献

    标签:;  ;  ;  

    人类基因PolyA位点预测
    下载Doc文档

    猜你喜欢