论文摘要
芸薹属(Brassica)是十字花科(Brassicacease)300多个属中最重要的一个属,含有世界性的重要蔬菜、油料和观赏作物,如白菜(B.rapa)、甘蓝(B.oleracea)和甘蓝型油菜(B.napus),而且甘蓝型油菜是由白菜和甘蓝通过天然种间杂交并加倍而形成的异源四倍体。拟南芥(Arabidopsis thaliana)则是来自十字花科的研究最深入的模式植物。染色体分子标记共线性研究发现,芸薹属植物之间以及芸薹属与拟南芥之间均存在基因组水平和基因水平的保守性。因此,拟南芥功能基因组学的研究成果,为推动芸薹属植物重要性状的分子机理研究和比较基因组学研究提供了重要参考。花青素苷是植物界广泛存在的水溶性类黄酮化合物,是花卉、水果、蔬菜中的重要呈色物质。花青素苷是安全、无毒、资源丰富的天然食用色素,用其取代有毒的化学合成色素是一个重要的发展方向。花青素(苷)具有保健和药理作用,如抗氧化、抗突变、预防心脑血管疾病、保护肝脏、抑制肿瘤细胞发生等。因此,花青素(苷)提取物在食品、化妆、医药等方面有巨大的应用潜力。花青素苷是经由苯丙烷-类黄酮-花青素苷复合途径合成的,而苯丙烷-类黄酮-原花青素复合途径则合成另一类重要的类黄酮物质原花青素,它是油菜等植物种皮的主要色素。拟南芥中高度同源的PAP1(AtPAP1)、PAP2(AtPAP2)、MYB113(AtMYB113)、MYB114(AtMYB114)基因编码类黄酮-花青素苷合成途径的正调控转录因子,作用于F3’H、DFR、ANS、UGT75C1、GST12等关键酶基因的启动子。鉴于这4个基因功能上的相似性,这里将它们合称为AtPAP基因家族。自然条件下它们不调控原花青素特异途径的ANR、LAC15等基因,将类黄酮途径引向花青素苷的合成而不是原花青素的合成。但是,利用CRES-T融合抑制技术将它们与EAR抑制域融合成负调控因子后,转化拟南芥进行异位表达,不仅能修饰花青素苷性状,也能抑制原花青素的合成而形成透明种皮(黄籽性状)。花青素苷性状是芸薹属植物的重要生物学和经济性状,黄籽性状则是油菜优质性状研究的焦点之一,芸薹属植物PAP基因的克隆对于它们花青素苷性状的分子机理研究以及花青素苷/原花青素性状的分子育种都具有重要意义。因此,本研究克隆了甘蓝型油菜及其2个亲本物种的PAP基因家族共12个基因成员的全长cDNA和基因组序列,进行了系统的生物信息学和比较基因组学分析。1)甘蓝型油菜及其亲本物种PAP基因家族的全长序列克隆及基因的结构特征本研究采用RACE技术,率先克隆了甘蓝型油菜及其亲本物种白菜型油菜和甘蓝PAP基因家族共12个基因成员的全长cDNA和基因组序列。甘蓝型油菜BnPAP基因家族的6个成员:BnPAP1、BnPAP2、BnPAP3、BnPAP4、BnPAP5、BnPAP6的基因全长分别为1793、1804、1979、1541、1522、1956bp,它们的实测最长版本mRNA全长分别为872、1011、1001、873、1005(推导)、1003bp(不计poly(A)尾巴,下同)。白菜型油菜BrPAP基因家族的3个成员:BrPAP1、BrPAP2、BrPAP3的基因全长分别为1854、1515、197(?)bp,它们的实测最长版本mRNA全长分别为932、998(推导)、1001bp。甘蓝BoPAP基因家族的3个成员:BoPAP1、BoPAP2、BoPAP3的基因全长分别为1548、1792、1957bp,它们的实测最长版本mRNA全长分别为873、1001、1000bp。芸薹属3个物种的12条PAP基因均由2个内含子和3个外显子组成,所有内含子都符合GT…AG的内含子剪切位点边界序列特征。除BnPAP5和BrPAP2外,它们的mRNA均具有一个744~753bp的ORF(开放读框,含终止密码子),5’UTR为32~86bp,3’UTR为93~181bp。最末poly(A)加尾位点上游均存在1~2处典型的poly(A)加尾信号AAATAAA。BnPAP5和BrPAP2由于在第6位氨基酸处发生了提前终止突变,使ORF只有18bp。发生提前终止突变之前,BnPAP5和BrPAP2的原始(ori)ORF均为744bp,5’UTR均为86bp,3’UTR分别为175和168bp。这是在芸薹属植物中首次克隆全长PAP基因,为深入研究芸薹属和十字花科植物PAP基因的功能、进化、调控模式奠定了基础,也为通过对PAP基因的转基因操作(反义、RNA干扰、CRES-T)修饰花青素苷和种皮色素等性状奠定了基础。2)甘篮型油菜及其亲本物种PAP家族的蛋白结构特征为了进行系统发生和比较基因组研究,这里将BnPAP5和BrPAP2的原始ORF翻译的蛋白(BnPAP5ori和BrPAP2ori)也进行了分析。除BnPAP5和BrPAP2外,甘蓝型油菜及其亲本物种PAP基因家族成员的标准mRNA均编码一个由247~250个氨基酸残基组成的多肽,分子量(Mw)为27.73~28.53kDa,等电点(pI)为8.73~9.01,均以亮氨酸含量最高,且碱性氨基酸残基多于酸性氨基酸残基。BnPAP5和BrPAP2均只有5个氨基酸残基。预测芸薹属12个PAP蛋白(含BnPAP5ori和BrPAP2ori,下同)均存在9~17个磷酸化位点。磷酸化作用可能与它们蛋白活性有关。它们均没有信号肽,也没有跨膜结构域,预测可能定位于细胞核。它们的二级结构非常相似,均是以随机卷曲所占比例最高(47.97%~53.41%),其次是a-蝶旋(31.71%~41.30%)。在它们的N-端至近中部,均存在2个SANT/MYB-DNA-binding结构域,且每个蛋白在R2-和R3-MYB结构域各存在3个a-螺旋。EsyPred3D预测的它们的R2R3-MYB域的三级结构符合典型的R2R3-MYB结构域的特征。核苷酸序列和氨基酸序列的BLAST分析、序列两两比对和多重比对、系统发生分析均表明,甘蓝型油菜及其亲本物种PAP家族12个成员与拟南芥AtPAP基因家族有最高的相似性,预示它们和AtPAP家族一样,编码定位于细胞核的R2R3-MYB蛋白并调控花青素苷合成。3)来自PAP位点的证据表明白菜型油菜和甘蓝是甘蓝型油菜的基因供体核酸水平和氨基酸水平的序列比对、系统发生聚类、内含子的一致性、特征性变异碱基、特征性变异氨基酸等方面都表明,BnPAP1来自于BrPAP1,BnPAP4来自于BoPAP1,BnPAP2来自于BoPAP2,BnPAP5来自于BrPAP2,BnPAP3来自于BrPAP3,BnPAP6来自于BoPAP3。不仅甘蓝型油菜的每个PAP基因均能在亲本物种中找到相对应的供体PAP基因,而且基因数量上刚好就是2个亲本物种PAP基因数量的总和。这说明,至少在PAP位点上,白菜型油菜和甘蓝是甘蓝型油菜的基因供体。本研究从编码调控关键酶的PAP转录因子基因家族成员的全长序列比较克隆的角度,为揭示甘蓝型油菜与其亲本物种间的进化关系提供了直观而具体的分子证据。4)在PAP位点上,拟南芥比芸薹属基本种发生了更多的加倍无论是拟南芥PAP基因家族成员(AtPAP1、AtPAP2、AtMYB113、AtMYB114)相互之间的同源性,还是芸薹属PAP基因家族12个成员间的同源性,均明显高于拟南芥与芸薹属间的PAP基因的同源性。这说明拟南芥属和芸薹属中的PAP多基因现象,均是在它们分开后才由1条十字花科祖先PAP基因通过加倍而产生的,在芸薹属中由于“三倍化”而成了3条,而在拟南芥中则发生了“四倍化”而成了4条。C-值、分子标记共线性和许多位点的对比克隆等研究均表明,在进化中拟南芥属表现出明显的基因组收缩,而芸薹属则表现为基因组扩张。但本研究表明,拟南芥属与芸薹属分开以后,在PAP位点上不但没有丢失和收缩,基因加倍次数反而比芸薹属还多。发生这种反常的对应关系,原因可能是在拟南芥中花青素苷性状象在芸薹属中一样也非常重要,性状的进化促使PAP基因加倍,或者拟南芥在进化中PAP位点由于在染色体中的位置较特殊,容易发生基因的加倍。5)PAP基因的相对保守性和快速进化特征来自于甘蓝型油菜及其2个亲本物种的12个PAP基因之间的一致率,在基因组水平上为59.8%~99.3%,在mRNA水平上为85.2%~100%,全蛋白水平的一致率和相似率分别为77.7%~100%和82.3%~100%,R2R3-MYB结构域的一致率和相似率分别为91.8%~100%和94.8%~100%,C-端域的一致率和相似率分别为67.9%~100%和73.6%~100%。芸薹属PAP基因家族与拟南芥PAP家族的间,基因组序列的一致率为59.5%~67.1%,ORF的一致率为77.8%~83.6%,全蛋白的一致率和相似率分别为65.9%~77.6%和71.9%~83.7%,R2R3-MYB结构域的一致率和相似率分别为88.7%~96.9%和91.8%~97.9%,C-端域的一致率和相似率分别为47.9%~65.0%和55.7%~74.1%。PAP蛋白在R2R3-MYB结构域存在很高的保守性,而C-端部分的保守性很差。因此,无论垂直同源基因间,还是水平同源基因间,PAP蛋白的C-端部分比N-端部分的歧化更快。6)揭示了PAP基因的一些新的结构特征在BnPAP2和BoPAP2中都发现存在可变剪切方式,除常规的剪切方式以外,二者都有在第二个内含子结尾处多剪21bp(7个氨基酸)的可变剪切方式,导致所编码蛋白在R3-MYB域的第2个a-螺旋处缺失了7个氨基酸残基,理论预测可能会对蛋白的DNA结合能力产生影响,但影响的程度究竟有多大,则需要进行功能验证。PAP基因家族很多成员都在5’UTR或3’UTR存在可变的转录起始位点或可变的poly(A)加尾位点,使同一条基因会产生不同长度的多种版本的成熟mRNA分子。它们究竟代表了一种顺式调控方式,还是由于转录起始和poly(A)加尾过程中的允许误差而造成的,值得研究。