人类基因PolyA位点预测

论文摘要

mRNA 3’端的多聚腺苷酸化是真核细胞内mRNA转录后处理的三个最主要步骤之一。对DNA序列上发生多聚腺苷酸化的位置即PolyA位点的识别,对于理解mRNA的形成机制以及进行基因结构预测具有重要作用。在3’UTR区存在多个潜在PolyA位点时,选择性多聚腺苷酸化以组织或疾病特异性的方式影响着基因的表达。此外,在基因结构预测领域,对PolyA位点的准确识别有助于对基因3’末端的确定。本文对PolyA位点的形成机制以及位点周围序列的一级、二级和高级结构、选择性多聚腺苷酸化进行了研究,并重点分析总结了国际上目前在PolyA位点预测方面的发展现状与存在的问题.并从NCBI的Refseq数据库里提取出1835条注释的PolyA序列,对PolyA位点周围序列进行了六联体核苷酸频率统计分析,确定了PolyA位点上下游各100bp范围内的序列特征比较显著。本研究利用机器学习方法对PolyA位点进行预测,其实现过程分为以下三个步骤:特征的生成、特征的筛选、特征的综合分析聚类。首先,采取统计k阶核苷酸频率的方法来生成初始的特征;然后,通过信息学知识来对特征进行筛选;最后,使用SVM(support vector machines,支持向量机)的方法进行特征的综合分析,确定参数,建立预测模型。在独立的测试数据集上进行测试,当敏感度(Sn)为60%时,在内含子水平和外显子水平上的特异性(Sp)分别为71.67%和80.77%,在内含子水平上的预测精度明显优于国际上的同类软件。

论文目录

摘要

Abstract

1 绪论

1.1 课题来源

1.2 研究背景、目的和意义

1.3 国内外研究现状

2 PolyA 序列特征分析和讨论

2.1 PolyA 位点的形成过程

2.2 PolyA 信号

2.3 下游元件

2.4 PolyA 位点周围序列的二级结构

2.5 选择性多聚腺苷酸化

2.6 分析数据的获取

2.7 PolyA 序列分析

3 PolyA 位点预测模型的建立

3.1 数据集的构建

3.2 特征的产生

3.3 特征的选择

3.4 特征的综合分析和模型的构建

3.5 模型的预测结果

4 讨论与分析

5 总结和展望

致谢

参考文献

附录攻读学位期间发表论文

人类基因PolyA位点预测

论文摘要

论文目录

相关论文文献