论文摘要
研究目的:肝脏是人体代谢的主要器官,具有分泌胆汁、解毒以及吞噬、防御等重要的生理功能。此外,在4—6月孕龄时,人胎肝还是造血、免疫、肝脏系统干祖细胞及其基质细胞的来源,其中的造血干细胞可向各系成熟的血细胞发育分化。复杂的生命现象在很大程度上是由大量受严格调控的基因的表达所决定的。真核细胞基因表达调控的关键步骤是转录调控,其机制十分复杂,涉及大量的转录因子和核内调控基因。据估计在人类的基因中含有2000-3000种转录因子(transcription factor,TF),而22周的人胎肝(Human Fetal Liver aged 22 Weeks,HFL22W)cDNA文库中已知的转录因子与转录调控因子仅95种,因此胎肝中很可能存在一些尚未发现的、在生理过程及重要疾病(如肿瘤)的发生、发展中扮演重要角色的转录因子。近年来,基因组和蛋白质组以及生物信息学的发展,使高通量地对转录因子进行筛选、鉴定和功能研究成为可能。这方面的实验和技术均以转录因子的结构特征和作用特点为基础,对具有特定功能或特定结构域的转录因子进行筛选。本文基于对转录因子各家族同源序列及结构域的分析研究,对HFL22W EST数据库中含有转录因子保守结构域的序列进行总结归纳和分类,以期能规模化地筛选出未知转录因子。研究方法:上面为研究流程框图。首先,我们下载TRANSFAC 6.0转录因子数据库中4218个转录因子文件,从中提取转录因子序列并格式化为FASTA格式数据库—提取转录因子中各特征性的、保守的结构域的蛋白质序列,格式化并送入FASTA格式数据库。TRANSFAC由德国国家生物工程研究中心建立并管理,是关于转录因子及其在基因组上的结合位点和与DNA结合的profiles数据库,由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。本实验室采用cDNA大规模测序策略对22周龄人胎肝cDNA文库进行大规模测序,获得了20282条EST。经过电子延伸、拼接、分类得到2125个已知基因和2800个未知基因。我们以ATGpr程序分析这些未知基因序列的ORF并翻译成蛋白质序列。本文采取的策略是用ATGpr预测未知基因序列,选其结果中具有最大可信度(Reliability)或有最大的长度的两条ORF,并满足Reliability>0.12,length>70,有终止密码子。我们使用两种不同的筛选方法:(一)对转录因子中各特征性的保守结构域构建这些模体的正则表达式。基于这些共有模体的正则表达式对HFL22W cDNA翻译蛋白质序列库规模化地比对查找,筛选出含有某类转录因子特征性结构域的cDNA翻译蛋白质序列作为候选序列。(二)采用MEME软件分析各类转录因子的保守结构,并根据分析结果在HFL22W cDNA翻译蛋白质序列库中寻找候选序列。进一步分析候选序列,与其它转录因子结构域进行比对及其它生物信息学分析,确定其是否可能是一个新的未知转录因子。结果:按类别对转录因子作分析和发掘,对找到的转录因子候选序列作了进一步的生物信息学分析,从类型、数目、位置、结构、功能等方面对序列中预测的结构域作了综合分析。(一)数据和数据处理编写Perl程序从TRANSFAC转录因子文件中提取所需要的信息,构建了全部转录因子序列和结构域序列的数据库文件。我们对2800个未知基因的序列进行了ORF分析和蛋白质预测,并以所预测的蛋白质序列作为筛选转录因子的候选序列。编写了perl程序从ATGpr的输出结果中提取了1503条ORF翻译蛋白序列作为预测转录因子的候选序列集合,其中1010条同时有最长ORF长度和最大可信度,271条有最长ORF长度,222条有最大可信度。与转录因子序列类似,我们构建了这些蛋白质序列的数据库文件,以FASTA格式文件存储。(二)C0002类转录因子的分析与发掘TRANSFAC的C0002类转录因子是Cys4 zinc finger of nuclear receptor type转录因子,即具有Cys4型锌指结构的细胞核受体型蛋白。这一类转录因子的共同特征是具有两个不同大小、组成和功能的锌指结构。我们采用了两种方法查找C0002类的转录因子:1.以锌指结构域正则表达式比对数据库构建锌指结构域正则表达式,用程序regexpFL22W对上述正则表达式查找HFL22W蛋白序列库。结果匹配到2条蛋白序列(C4992、F0418),并确定了锌指结构的位置。2.MEME软件分析MEME程序是一套模体分析工具,是基序启发的多EM(Multiple EM for Motif Elicitation)的缩写,EM指期望值最大化(Expectation Maximization),是统计学中预测丢失值或未观察到的值的方法。MEME的结果与第一种方法的结果一致,找到同样的序列和锌指结构。用BLAST比对其它转录因子结构域分析了两条序列。用prosite对两条序列作进一步生物信息学分析。(三)C0001类转录因子的分析与发掘TFⅢA/Krueppel类型转录因子含Cys2His2型锌指结构。每个锌指结构包含2个半胱氨酸和2个组氨酸残基配位一个锌离子,有时其中一个组氨酸可以被一个半胱氨酸取代。锌离子对与DNA结合起重要作用。同样以锌指结构域正则表达式比对数据库和以MEME软件两种方法分析发掘转录因子。1.用程序regexpFL22W以正则表达式查找HFL22W蛋白质序列库,找到17条蛋白质序列。这17条序列与其它转录因子结构域作BLAST比对,有6条序列匹配到与转录激活或其它功能相关的转录因子结构域。2.以MEME软件分析结果找到16条序列,与第一种方法找到的重复。对6条序列进行了SMART结构分析和二级结构预测,结果显示了与转录因子及其结构域相关的提示。结论:基于已有的EST数据库和转录本数据库,使用生物信息学的分析方法,通过对转录因子特有序列的同源性搜索筛选新的转录因子,具有快速、全面、规模化等优势,可以为转录因子的实验研究提供更具可信度的样本和充分的生物信息学支持。使用我们构建的正则表达式分析结果与用MEME软件分析产生的结果非常一致,该正则表达式为寻找转录因子提供了一种简便快速的方法。