论文摘要
microRNA是一种单链的非编码小分子RNA,长约20-24个核苷酸,它由长度约为70个核苷酸的microRNA前体(pre-microRNA)经过具有RNaseIII活性的Dicer和Dicer-like-1内切核酸酶加工形成,microRNA通过诱导靶mRNA剪切或者抑制其翻译来调控基因表达的功能。人类有近三分之一的基因都受到microRNA的调控,它对生物的细胞增殖分化、细胞死亡、早期发育、代谢活动等生物过程有着重要的调控作用,研究表明,它与癌症也有着紧密的联系,对microRNA的研究有助于人们了解基因间的网络调控关系,更有助于对基因功能的研究以及生物的进化探索。虽然microRNA广泛存在于55个物种之中,目前被鉴定出来的microRNA数量比实际存在的要少的多,还有大量的microRNA有待发现。因此对microRNA的进行预测具有重要的意义。目前已知的microRNA预测主要有两种方式,cDNA克隆预测和计算预测。前者是microRNA早期主要的预测方式,这种方式直接、可靠,但是很难克隆出在不同时期表达,或者只在特定的组织或细胞系中表达的microRNA。计算预测则不会受到microRNA在表达时间、表达水平或组织特异性的影响,从而可以弥补cDNA克隆测序的不足。本文基于机器学习提出了一种称为ACO+SVM的microRNA预测方法,由于pre-microRNA的序列较长,并且可以折叠形成stem-loop结构,将pre-microRNA序列和结构特征结合起来提取相应属性信息。本文通过已知的阳性和阴性pre-microRNA构建区分二者的分类器,由于支持向量机(Support Vector Machines,SVM)在逼近和泛化能力方面具有良好的特性,因此本文microRNA的预测方法采用SVM训练分类器,考虑到SVM分类器的性能受核函数和相关参数的影响很大,采用蚁群算法(Ant Colony Optimization,ACO)搜索SVM的相关参数,以构建无偏、且同时具有较高敏感性和特异性的分类器。实验结果表明该方法不仅可以有效的鉴别人类真假pre-microRNA,而且在其他多个物种的预测上具有较高的准确度,与其他同类方法相比具有更好的敏感性和特异性。