论文摘要
冬虫夏草[Cordyceps sinensis (Berk.) Sacc]是青藏高原及周边地区的特产,需求很旺;但近年来,资源已经濒于枯竭。通过大规模表达序列标签(Expressed sequence tags ,ESTs)测序,从分子水平上获得大量数据,对其基因功能进行初步探讨,可为今后冬虫夏草基因组结构和大部分基因定位提供信息,即为深入研究冬虫夏草功能基因积累序列资源。冬虫夏草表达序列标签数据的收集,在新基因发现、基因敲除研究和基因芯片制备,以及系统发育分析等方面具有重大价值。本实验以野生冬虫夏草为材料构建了cDNA文库(分为子座部分与菌核部分两个文库,以下简称为“草库”、“虫库”)。从这些序列里,将会发现其子座成熟时期的基因表达及调控信息。本实验首先以Trizol法提取冬虫夏草相应部位的总RNA,磁珠法分离mRNA,逆转录合成cDNA双链,与pBlueScriptII载体结合,转入大肠杆菌扩增,碱裂解法提取质粒,经荧光标记的测序反应后,自动测序仪读取基因序列,获得表达基因的片段。将获得的原始数据屏蔽载体序列,然后再去除低质量和小于100bp的小片段。将这些表达序列标签序列以Phrap程序进行聚类拼接,获得的表达序列标签序列再按六个阅读框以BLASTX程序与genBank中非冗余蛋白质序列数据库(non-redundant protein sequences database ,NR)进行联配;再以BLASTN程序与genBank中非冗余核酸序列数据库(non-redundant nucleotide sequences database, NT)进行联配,寻找具有相似性的蛋白质序列和核酸序列。对仅知氨基酸序列,但功能未知的基因,用Interpro分析其结构域,从而推测所获得的表达序列标签可能的性质和功能。对已知基因则进入http://www.geneontology.org网站进行基因功能分类。本实验最终获得20 193条高质量表达序列标签序列,平均读长545bp ;经拼接得到6481条非重复序列,其中有2466条叠连群(Contigs),4015条单片段(Singlet)。其中最大的一致性序列由545条EST序列组成,而最长的独立序列(unisequence )长1669bp。通过大规模表达序列标签测序和分析,获得冬虫夏草大量功能基因信息,经生物信息学分析发现,2018个一致性序列与已知基因具有较高的相似性(已知基因),3420个与已知序列具有较高的相似性(新基因),2342个为低度相似或没有相似性的序列(未知基因)。从虫库与草库均发现了多糖合成酶类基因。本实验共获得87个与已知的多糖代谢途径基因高度相似的表达序列标签。其余主要是与DNA复制、各类物质代谢及能量代谢、防御机制、信号转导等相关的基因序列相似。这些有用的信息,已为冬虫夏草功能基因研究,提供了序列信息和基础数据,对冬虫夏草功能基因组的研究具有推动作用。