论文摘要
mRNA 3’端的多聚腺苷酸化是真核细胞内mRNA转录后处理的三个最主要步骤之一。对DNA序列上发生多聚腺苷酸化的位置即PolyA位点的识别,对于理解mRNA的形成机制以及进行基因结构预测具有重要作用。在3’UTR区存在多个潜在PolyA位点时,选择性多聚腺苷酸化以组织或疾病特异性的方式影响着基因的表达。此外,在基因结构预测领域,对PolyA位点的准确识别有助于对基因3’末端的确定。本文对PolyA位点的形成机制以及位点周围序列的一级、二级和高级结构、选择性多聚腺苷酸化进行了研究,并重点分析总结了国际上目前在PolyA位点预测方面的发展现状与存在的问题.并从NCBI的Refseq数据库里提取出1835条注释的PolyA序列,对PolyA位点周围序列进行了六联体核苷酸频率统计分析,确定了PolyA位点上下游各100bp范围内的序列特征比较显著。本研究利用机器学习方法对PolyA位点进行预测,其实现过程分为以下三个步骤:特征的生成、特征的筛选、特征的综合分析聚类。首先,采取统计k阶核苷酸频率的方法来生成初始的特征;然后,通过信息学知识来对特征进行筛选;最后,使用SVM(support vector machines,支持向量机)的方法进行特征的综合分析,确定参数,建立预测模型。在独立的测试数据集上进行测试,当敏感度(Sn)为60%时,在内含子水平和外显子水平上的特异性(Sp)分别为71.67%和80.77%,在内含子水平上的预测精度明显优于国际上的同类软件。