论文摘要
miRNA(microRNA)是一类重要的非编码RNA,通过在转录后水平上抑制靶基因的mRNA翻译或降解靶基因mRNA来发挥作用。根据miRBase数据库,到目前为止,已经发现了678个人类的microRNA基因,并且有证据表明在人类中尚有大量的microRNA有待发现,microRNA的总数可能会更多。目前认为microRNA参与很多重要的生物学过程,如转录因子调控网络,发育过程中的时序控制,神经突触形成,细胞增殖,细胞死亡,细胞分化等。micmRNA的研究成为生命科学中的研究热点,本文就利用生物信息方法研究microRNA的功能进行了初步探索。目前有多种计算生物学的工具用来预测哺动物中micmRNA的靶基因(miRanda,TargetScan,PicTar),但得到实验验证的靶基因数目远远小于通过计算方法预测的数目。现实的情况是,尽管发现了大量的microRNA,然而寻找microRNA靶基因的步伐相对迟缓。发现microRNA的靶基因将极大地促进microRNA的功能研究,因此本文第一部分提出了一个用于改进microRNA靶基因预测效率的整合机器学习算法,算法在训练集上、FMRP相关mRNA数据集上都获得了较好的效果。进一步选择miR-9作为测试对象,随机抽取16个预测靶基因进行荧光素酶报告基因验证实验,结果显示,有10个预测靶基因的结果与预期相符。通过以上结果,我们可以得出结论,我们开发的整合算法可以有效地提高现有microRNA靶基因预测算法的准确率。近年来,基因芯片技术被用来研究microRNA基因的调节功能。然而如何将基因的表达谱和microRNA的表达谱合并在一起进行分析,依然没有被很好地解决。本文第二部分提出了一个新的概念,即in-silico MRPs(in-silico MicroRNA RegulatoryProfiles),将两者结合在一起,首次用来从基因组水平上描述microRNA的调节功能。我们首先为三个物种,即人(157 microRNAs×13041 mRNAs),大鼠(152microRNAs×5108 mRNAs)与小鼠(72 microRNAs×10729),分别构建了各自的in-silicoMRPs矩阵。通过验证,构建的in-silico MRP确实能够真实、有效地反映一个microRNA基因的调控作用。我们进一步以in-silico MRP为基础,从基因组水平上获得了两组新的数据:在人中有约36%的microRNA倾向于降解其靶基因,及三个物种间有大约42%的microRNA其调控靶基因的能力保守。为了方便其他的研究者使用in-silico MRP,我们建立了一个网站,提供已经计算好的in-silico MRP下载,并提供在线计算in-silico MRP的能力,为自己有数据而又不方便公布的研究者提供便利。目前,microRNA相关功能分析软件很多,然而这些软件和资源散布在各处,联系松散,不方便研究者使用。本文的第三部分描述了一个专门为microRNA功能分析设计的R语言程序包—miRE。miRE具有良好的图形化界面,可以辅助研究者进行microRNA相关功能分析,如浏览microRNA的生物学注释,预测靶基因,文献挖掘及microRNA基因邻近特征分析等。综上所述,本文提供了一种改良的整合机器算法来提高预测靶基因的准确率,提供一种整合miRNA/mRNA表达谱的方法,并开发了一种平台性软件miRE,为microRNA相关的功能分析提供了有力的工具。