论文摘要
欧亚种葡萄(Vitis vinifera L.)既可生食,又可制干、酿酒、制汁,具有很高的营养价值和经济价值。欧亚种葡萄是迄今为止基因组被完整测序的第一种水果作物和第四种开花植物。葡萄全基因组测序工作的完成,使得人们对这古老植物的认识有了新的起点和视角。研究者可以根据公布的基因组序列,利用分子生物学和生物信息学的方法和手段,对葡萄的生物学现象作前所未有的分析和了解。本研究利用葡萄全基因组序列,运用生物信息学的方法和手段,在基因组的水平上提取葡萄的转录因子、SSR和miRNA,利用计算机网络和数据库技术构建了葡萄转录因子数据库、葡萄SSR数据库。为了尽可能多地收集欧亚种葡萄转录因子,本研究利用转录因子DNA结合域的隐马尔科夫模型(HMM)在整个基因组中搜索匹配的转录因子。HMM的搜索结果中包含了所有具有相应结构域的转录因子,用Perl语言编写程序—Class.p1,将这些转录因子分类到不同的家族中。最后,为了对葡萄转录因子进行有效的储存、查找,本研究利用相关的生物信息学软件和数据库对这些转录因子进行注释,然后运用Perl、 PHP、MySQL等技术开发了葡萄转录因子数据库。本研究鉴定了1625个葡萄转录因子,属于67个家族。提取这些转录因子的相关信息,构建了葡萄转录因子数据库(DGTF)。该数据库对预测到的转录因子进行详细注释,对每个转录因子基因家族作了简单介绍,每个转录因子条目均有基本信息、基因结构、功能域注释和数据库交叉链接。此外,预测了每个转录因子在其它物种中可能的直系同源基因(Orthologues)。数据库具有统一的界面,用户可方便地进行浏览、检索、BLAST搜索和数据下载。网址为:http://www.yaolab.sh.cn/dgtf/。为了从基因组中快速搜索出SSR,本研究利用Perl语言开发了用于探寻基因组SSR的程序—SSRFinder。利用SSRFinder,从欧亚种葡萄基因组序列中检索到114520个SSR。在各类SSR中,不同碱基组成的重复单元频率间存在较大的差异,其中富含AT重复单元的SSR频率最高,而富含GC重复单元的SSR频率最低。SSR在基因组上主要分布在基因间隔区,其次是基因的非翻译区,在编码区的分布密度最小。三核苷酸和六核苷酸SSR在翻译区的分布频度明显高于其他类型的SSR。利用这些SSR序列共设计出80065(69.9%)对SSR引物。.另外,本研究开发了一个基于Web界面的SSR数据库(DGSSR),收录和注释全基因组与EST的SSR,并提供了查询界面。DGSSR的网址为http://www.yaolab.sh.cn/ssr/。本研究利用生物信息学方法,根据已知植物miRNA的特征,设计miRNA预测程序(?)-MirFinder,从欧亚种葡萄全基因组中预测miRNA。MirFinder利用miRNA在植物中的保守性和miRNA前体的特征设计算法。本研究利用MirFinder搜索整个葡萄基因组,共识别出146条miRNA,然后利用葡萄中已知的miRNA对其进行同源检索,发现其中98条与已知的miRNA完全相同,另外48个为新发现的miRNA。这些新发现的miRNA基因属于21个家族。其中,8个家族为葡萄中新发现的(?)miRNA家族,共有20个miRNA成员。根据植物miRNA和其靶基因问存在较高的序列互补性,对新发现的miRNA家族预测其靶基因,结果表明其中6个miRNA家族存在靶基因。