基于生物信息学方法分析基因家族及非编码序列的研究

基于生物信息学方法分析基因家族及非编码序列的研究

论文摘要

水稻(Oryza sativa L.)是世界上最主要的粮食作物之一,为世界一半以上的人口提供主粮。水稻分为两个亚种,即籼稻和粳稻。现在水稻的两个亚种(93-11和日本睛)的基因组草图已公布。另外,日本晴的1号,4号和10号染色体的精细图也已完成。拟南芥的基因组相对较小,是植物遗传学研究的一个模式植物。2000年下半年,拟南芥成为第一个全基因组测序完成的植物。本论文的研究目的是从改良作物的抗病和抗旱两大重要的育种目标出发,对水稻抗病和抗旱两大基因家族的基因的分布,表达和调控进行了分析。我们根据抗病基因结构功能域的保守性,改进了抗病基因类似物(RGA)多态性标记。同时,根据内含子序列变异大,而外显子变异较小开发了内含子长度多性标记;且对长非编码序列、短非编码序列和特殊序列进行研究,从而了解植物基因的表达调控。本论文采用生物信息学的方法和结合水稻和拟南芥的基因序列,围绕上述提出的几大研究目的,对当前作物遗传育种中的几大研究问题进行深入的研究。主要研究结果有:(1)水分胁廹基因家族-LEA蛋白基因家族研究结果发现34个LEA蛋白的同源序列,其中本文发现25个新基因或有关的基因。通过与全长cDNA联配,发现4个OsLEA具有可变剪切。除了10号和12号染色体外,所有的LEA分布在水稻染色体。另外,我们发现具有两个独立的转换事件。利用RT-PCR的方法,对15个OsLEA的表达分析表明,OsLEA基因表达具有各式各样,一些是组成性表达,一些是受胁迫调控的。我们在受ABA诱导和干旱诱导的LEA的基因中,发现了CACAGTA和CACGCACG元件。(2)抗病基因(R)的基因家族本论文利用45个已知功能的植物抗病基因序列对粳稻全基因组序列进行搜索,共找出2,119个R基因同源序列或类似物(RGA),证明RGA在水稻基因组中成簇存在,呈非随机分布。采用隐马尔柯夫模型(HMM),将这些RGA按其功能域分成了21类。将粳稻的RGA与籼稻的基因组序列进行比较,共找到702个两亚种间等位的RGA,并发现其中有671个(占95.6%)RGA的基因组序列(包括编码区和非编码区)在两亚种间存在长度差异(InDel),表明水稻RGA在两亚种间存在很高的多态性。通过在InDel两侧设计引物并进行e-PCR验证,共开发出402个基于PCR的、表现为共显性的候选RGA标记。这些候选标记在两亚种间的长度差异在1—742 bp之间,平均为10.26 bp。进而,我们对所有的182个抗病基因簇进行了进化分析。(3)非编码序列-内含子长度多态性的分子标记(ILP)本研究利用水稻两个品种93-11(籼稻)和日本晴(粳稻)的基因组草图及日本晴的32,127条全长cDNA基因组序列,我们进行全基因组搜索ILPs,结果发现13,308个候选ILPs。基于这些候选的ILPs,我们利用电子PCR(e-PCR)在两侧外显子上设计引物,开发了5811个ILP候选标记。(4)长非编码序列-保守非编码序列(pCNE)我们在单子叶和双子叶植物中通过直系同源的方法,找到了436个pCNEs。通过搜索旁系同源CNEs,我们在拟南芥中找到了7,972个pCNE。我们假定功能特异的蛋白与所对应的旁系和直系同源的CNEs相关联,结果发现CNEs往往与转录因子一起起作用。富集的转录因子主要是myb转录因子和锌指蛋白。(5)短保守非编码序列-转录因子结合位点基因间序列中存在大量的调控序列,其中主要的是转录因子结合位点。我们能过Pearson相关在四个不同的组织中找到了787个共表达的组织特异性的基因。利用逐步回归的方法,对于每个基因,在其上游启动子序列中找到显著的转录因子结合位点。我们系统地分析了单个和组合的结合位点,这些结合位点控制着基因的转录和表达。控制不同组织的转录因子结合位点的类型不同,其中花粉具有62个,根部具有69个等。(6)特殊序列-甲基化位点预测对于基因的表达,不仅受到转录因子的调节,还受DNA甲基化等各种调节和修饰。DNA甲基化与许多生物学过程有关,包括组织特性基因的表达,基因组印记。我们描述了计算预测拟南芥基因组甲基化的情况。我们利用不同的判别方法来分析甲基化与非甲基化区域。结果表明,基于实验证实的甲基化数据,Logistic模型树(LMT)分类器方法具有71.03%的预测准确性。

论文目录

  • 摘要
  • Abstract
  • 1 前言
  • 2 文献综述
  • 2.1 水稻和拟南芥
  • 2.2 水稻和拟南芥基因组
  • 2.3 基因家族
  • 2.3.1 胚胎晚期发育蛋白(LEA)基因家族
  • 2.3.2 抗性(R)基因
  • 2.4 分子标记
  • 2.4.1 分子标记的类型
  • 2.4.2 分子标记的应用
  • 2.5 保守非编码元件
  • 2.6 组织特异性的转录因子结合位点
  • 2.7 全基因组DNA甲基化预测
  • 3 材料与方法
  • 3.1 基因组及蛋白质序列的来源
  • 3.2 水稻LEA基因组规模的鉴定与分析
  • 3.2.1 OsLEA基因的鉴定
  • 3.2.2 序列对比和基因转变分析
  • 3.2.3 LEA基因的表达分析
  • 3.2.4 启动子基序分析
  • 3.3 水稻RGA基因组规模的鉴定与分析
  • 3.3.1 水稻RGA的搜索
  • 3.3.2 水稻RGA的结构分类及其在染色体上的分布
  • 3.3.3 两个亚种间RGA多态性的鉴定和开发
  • 3.4 非编码序列-内含子子长度多度性(ILPs)
  • 3.4.1 水稻籼粳亚种基因组比较搜索ILP
  • 3.4.2 通过EPIC-PCR开发候选ILP标记
  • 3.4.3.实验验证及评价ILP标记
  • 3.5 长的保守非编码序列
  • 3.5.1 鉴定基因的pCNE
  • 3.5.2 根据基因的功能进行分类
  • 3.6 短的保守非编码序列—转录因子结合位点
  • 3.6.1 组织特异基因的皮尔森相关性
  • 3.6.2 TFBSs的计算预测
  • 3.6.3 鉴定假定结合位点的互作
  • 3.6.4 线性回归鉴定TFBSs的功能
  • 3.7 DNA甲基化预测
  • 3.7.1 DNA甲基化数据
  • 3.7.2 用于甲基化预测的特征
  • 4 结果与分析
  • 4.1 水稻LEA基因组规模的鉴定与分析
  • 4.1.1 OsLEA基因的数量、类型和分布
  • 4.1.2 OsLEA基因的序列相似性和基因转换研究
  • 4.1.3 OsLEA基因的表达
  • 4.1.4 OsLEA启动子的保守序列
  • 4.2 水稻全基因组R基因鉴定及候选RGA标记开发
  • 4.2.1 粳稻中RGA的数目、密度及其在染色体上的分布
  • 4.2.2 水稻RGA的结构分类
  • 4.2.3 RGA基因在水稻亚种间的多态性
  • 4.3 内含子长度多态性的研究以及在水稻中作为分子标记的潜力
  • 4.3.1 水稻ILPs的数量、分布及密度
  • 4.3.2 候选ILP标记
  • 4.3.3 ILP标记的实验验证
  • 4.3.4 WIN-PCR的ILP标记
  • 4.3.5 ILP数据库
  • 4.4 长的保守非编码序列
  • 4.4.1 通过比较直系同源基因获得植物的pCNEs
  • 4.4.2 通过分析拟南芥的旁系同源来发现pCNEs
  • 4.5 短的保守非编码序列-TFBSs的研究
  • 4.5.1 组织特异表达基因
  • 4.5.2 基因组中搜索TFBSs
  • 4.5.3 TFBSs和组织的相关性研究
  • 4.5.4 TSS到TFBSs的距离
  • 4.5.5 顺式调控模(CRMs)
  • 4.6 甲基化位点的预测
  • 4.6.1 DNA片段甲基化的计算预测
  • 4.6.2 基因甲基化的计算预测
  • 4.6.3 启动子甲基化的计算预测
  • 4.6.4 外显子甲基化的计算预测
  • 5 讨论
  • 5.1 LEA和R基因家族的分析
  • 5.2 内含子长度多态性分子标记的研究
  • 5.2.1 ILP引物的优势
  • 5.2.2 ILPs的亚种特异性
  • 5.2.3 ILP标记的通用性
  • 5.3 长非编码保守序列的分析
  • 5.4 转录因子结合位点的分析
  • 5.5 甲基化的预测
  • 6 参考文献
  • 7 附录:博士期间发表的有关论文
  • 相关论文文献

    • [1].构建三维参数空间区分完全基因组中的编码和非编码序列[J]. 铜仁学院学报 2009(06)
    • [2].调控真核基因表达的非编码序列[J]. 生物物理学报 2013(04)
    • [3].非编码序列发生基因突变可能引起性状变化[J]. 生物学通报 2010(03)
    • [4].基于cpDNA atpB-rbcL非编码序列分析桫椤种群遗传结构和遗传多样性,以贵州赤水桫椤国家级自然保护区为例[J]. 基因组学与应用生物学 2013(02)
    • [5].长链非编码RNA在肿瘤发生发展中作用机制的研究[J]. 空军医学杂志 2016(02)
    • [6].观光木cpDNA非编码序列PCR反应体系优化及引物筛选[J]. 中南林业科技大学学报 2014(09)
    • [7].miR-29参与恶性肿瘤发生发展的研究进展[J]. 医学研究杂志 2013(11)
    • [8].导致肥胖的基因机制[J]. 生物学通报 2014(05)
    • [9].穿孔素基因多态性与儿童噬血细胞综合征的相关性研究[J]. 中国当代儿科杂志 2015(07)
    • [10].SV40PolyA顺式活化基因元件中不完整茎环结构的发现和序列研究[J]. 遗传 2011(04)
    • [11].hKv4.3基因中表达调控序列的研究[J]. 吉林工程技术师范学院学报 2015(04)
    • [12].CRISPR/Cas9全基因组筛选在生命科学中的应用[J]. 生命科学 2018(09)
    • [13].pGL3-BMP2荧光素酶报告基因载体的构建及鉴定[J]. 中国优生与遗传杂志 2013(09)
    • [14].牡丹PsDREB转录因子基因的克隆及亚细胞定位[J]. 分子植物育种 2015(10)
    • [15].心血管疾病与表观遗传学研究进展[J]. 中华实用诊断与治疗杂志 2016(05)
    • [16].种内谱系地理学及在植物遗传多样性保护中的应用[J]. 中南林业科技大学学报 2011(12)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    基于生物信息学方法分析基因家族及非编码序列的研究
    下载Doc文档

    猜你喜欢