论文摘要
RNA干扰是由双链RNA引起的基因沉默现象,广泛应用于研究基因的功能、药物靶点筛选、疾病治疗等方面。siRNA设计是实现RNA干扰的有效途径,siRNA设计的优劣将直接影响RNA干扰的效果。目前siRNA设计方法中,设计规则方面存在的问题是:设计规则是基于序列特征,没有考虑靶结构对siRNA干扰效率的影响,导致设计出的siRNA序列的干扰效率较低。目前siRNA设计中,在预测候选siRNA的干扰效率方面存在的问题是:目前的预测方法主要考虑siRNA自身的特征,因此,预测的准确度不高,相关系数通常在0.63左右,从而导致候选的siRNA数量过多,给生物实验带来了很大的困难。如何提高siRNA干扰效率预测的准确度是目前急需解决的问题。由于siRNA的沉默效率与靶mRNA的结构相关,因此,包含了靶mRNA结构特征的siRNA设计可能会大大提高设计的准确性。本文提出了序列特征和结构特征相融合的siRNA设计算法,将其应用于2009年H1N1流感病毒和2008年季节性H1N1流感病毒的siRNA设计中。在多特征融合的靶向流感病毒的siRNA设计过程中,既考虑序列特征,也考虑靶序列的结构特征,用结构系数去衡量靶结构的优劣,根据结构系数的大小,选择出较优的候选靶序列,然后,根据靶序列设计出相应的siRNA序列。只有找到与siRNA干扰效率密切相关的特征,才能提高siRNA干扰效率预测的准确性。本文通过定性分析和定量分析,发现哺乳动物的siRNA干扰效率与mRNA的GC含量、靶点附近的GC含量、mRNA的茎比率、靶点附近的茎比率之间有很强的相关性。由于mRNA全局的特征和靶点附近局部的特征与siRNA干扰效率之间的相关性很强,所以,本文提出了一个基于随机森林的siRNA干扰效率预测模型,在预测siRNA干扰效率时,考虑siRNA自身特征的同时,也考虑mRNA全局的特征和靶点附近局部的特征。10折交叉验证的相关系数从0.63提高到0.7,从而证实了考虑mRNA全局的特征和靶点附近局部的特征可以显著地提高预测的准确性。综上所述,本文的创新点主要有以下两点:1、本文提出了多特征融合的siRNA设计算法,根据模式识别理论与实践,多特征融合是提高模式识别精度的有效手段。采用多特征(序列特征、结构特征)融合模型,来进行靶向流感病毒基因的siRNA设计,是提高其准确性的途径之一。2、本文提出了一个基于随机森林的siRNA干扰效率预测模型,在预测siRNA干扰效率时,考虑siRNA自身特征的同时,也考虑mRNA全局的特征和靶点附近局部的特征。10折交叉验证的相关系数从0.63提高到0.7,从而证实了考虑mRNA全局的特征和靶点附近局部的特征可以显著地提高预测的准确性。