siRNA设计中若干关键问题的研究

siRNA设计中若干关键问题的研究

论文摘要

RNA干扰是由双链RNA引起的基因沉默现象,广泛应用于研究基因的功能、药物靶点筛选、疾病治疗等方面。siRNA设计是实现RNA干扰的有效途径,siRNA设计的优劣将直接影响RNA干扰的效果。目前siRNA设计方法中,设计规则方面存在的问题是:设计规则是基于序列特征,没有考虑靶结构对siRNA干扰效率的影响,导致设计出的siRNA序列的干扰效率较低。目前siRNA设计中,在预测候选siRNA的干扰效率方面存在的问题是:目前的预测方法主要考虑siRNA自身的特征,因此,预测的准确度不高,相关系数通常在0.63左右,从而导致候选的siRNA数量过多,给生物实验带来了很大的困难。如何提高siRNA干扰效率预测的准确度是目前急需解决的问题。由于siRNA的沉默效率与靶mRNA的结构相关,因此,包含了靶mRNA结构特征的siRNA设计可能会大大提高设计的准确性。本文提出了序列特征和结构特征相融合的siRNA设计算法,将其应用于2009年H1N1流感病毒和2008年季节性H1N1流感病毒的siRNA设计中。在多特征融合的靶向流感病毒的siRNA设计过程中,既考虑序列特征,也考虑靶序列的结构特征,用结构系数去衡量靶结构的优劣,根据结构系数的大小,选择出较优的候选靶序列,然后,根据靶序列设计出相应的siRNA序列。只有找到与siRNA干扰效率密切相关的特征,才能提高siRNA干扰效率预测的准确性。本文通过定性分析和定量分析,发现哺乳动物的siRNA干扰效率与mRNA的GC含量、靶点附近的GC含量、mRNA的茎比率、靶点附近的茎比率之间有很强的相关性。由于mRNA全局的特征和靶点附近局部的特征与siRNA干扰效率之间的相关性很强,所以,本文提出了一个基于随机森林的siRNA干扰效率预测模型,在预测siRNA干扰效率时,考虑siRNA自身特征的同时,也考虑mRNA全局的特征和靶点附近局部的特征。10折交叉验证的相关系数从0.63提高到0.7,从而证实了考虑mRNA全局的特征和靶点附近局部的特征可以显著地提高预测的准确性。综上所述,本文的创新点主要有以下两点:1、本文提出了多特征融合的siRNA设计算法,根据模式识别理论与实践,多特征融合是提高模式识别精度的有效手段。采用多特征(序列特征、结构特征)融合模型,来进行靶向流感病毒基因的siRNA设计,是提高其准确性的途径之一。2、本文提出了一个基于随机森林的siRNA干扰效率预测模型,在预测siRNA干扰效率时,考虑siRNA自身特征的同时,也考虑mRNA全局的特征和靶点附近局部的特征。10折交叉验证的相关系数从0.63提高到0.7,从而证实了考虑mRNA全局的特征和靶点附近局部的特征可以显著地提高预测的准确性。

论文目录

  • 提要
  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 背景介绍
  • 1.2 目前 siRNA 设计中存在的问题
  • 1.2.1 设计规则方面存在的问题
  • 1.2.2 预测候选 siRNA 干扰效率方面存在的问题
  • 1.3 RNA 干扰简介
  • 1.3.1 RNAi 的起源
  • 1.3.2 RNAi 的特点
  • 1.3.3 RNAi 的作用机制
  • 1.3.4 RNAi 的应用
  • 1.4 siRNA 简介
  • 1.4.1 siRNA 的特点
  • 1.4.2 通用的 siRNA 设计方法
  • 1.4.3 基于规则的 siRNA 效率预测方法
  • 1.4.4 基于机器学习的 siRNA 效率预测方法
  • 1.5 本论文的创新点
  • 第2章 多特征融合的靶向 H1N1 流感病毒的 siRNA 设计
  • 2.1 目前靶向流感病毒的 siRNA 设计方法
  • 2.2 流感病毒简介
  • 2.2.1 甲型 H1N1 流感病毒的基因特点
  • 2.2.2 甲型 H1N1 流感的预防和治疗方法
  • 2.3 新甲型 H1N1 流感病毒简介
  • 2.3.1 新甲型 H1N1 流感病毒的特点
  • 2.3.2 新甲型 H1N1 流感病毒基因组进化分析
  • 2.3.3 新甲型 H1N1 流感病毒的预防和治疗
  • 2.4 RNA 干扰在抗病毒研究中的应用
  • 2.4.1 传统抗流感治疗方法存在的问题
  • 2.4.2 RNA 干扰在抗病毒研究中的应用
  • 2.5 多特征融合的靶向 H1N1 流感病毒的 siRNA 设计方法
  • 2.5.1 结构系数
  • 2.5.2 多特征融合的 siRNA 设计算法
  • 2.5.3 实验分析
  • 2.6 小结
  • 第3章 基于随机森林的 siRNA 干扰效率预测模型
  • 3.1 目前 siRNA 干扰效率预测常用的特征
  • 3.2 本文所用的样本集和特征集
  • 3.2.1 样本集
  • 3.2.2 特征集
  • 3.3 本模型的背景知识介绍
  • 3.3.1 决策树
  • 3.3.2 随机森林算法
  • 3.3.3 随机森林的特点
  • 3.4 本模型的可行性分析
  • 3.4.1 定性分析
  • 3.4.2 定量分析
  • 3.4.3 与目前常用模型的比较
  • 3.4.4 特征重要性评估
  • 3.4.5 本文发现的重要特征与目前已发现的重要特征间的比较
  • 3.5 小结
  • 第4章 结论与展望
  • 4.1 结论
  • 4.2 展望
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    siRNA设计中若干关键问题的研究
    下载Doc文档

    猜你喜欢