PAP1和PAP2基因的克隆及其相关生物信息学研究

PAP1和PAP2基因的克隆及其相关生物信息学研究

论文摘要

目的:肿瘤抑制蛋白P53是一个通用转录因子,通过激活或抑制其下游基因的表达,在应答诸如癌基因表达、缺氧以及DNA损伤等细胞胁迫信号方面起着关键作用。P53及其下游基因组成了一个复杂的调控网络,了解该调控网络无论对于理解P53的生理功能、肿瘤临床基因治疗或是药物发现等都具有十分重大的意义。而了解P53调控网络的关键是鉴定p53下游基因。本研究首先利用分子生物学的方法克隆新的p53下游基因,并对其功能进行初步研究;其次利用生物信息学方法对整个人类基因组DNA中存在的p53下游基因进行预测分析;从而进一步完善p53基因调控网络。方法:利用哺乳动物基因诱导表达系统,Tet-OnTM基因表达系统,以人脑胶质瘤细胞株U251为实验材料,建立p53基因可诱导表达的转p53基因细胞系,并构建p53基因过度表达的cDNA文库。通过差异显示、测序、同源性比较及cDNA文库筛选等方法克隆新的p53下游基因。对新克隆的p53下游基因利用生物信息学方法进行结构与功能预测,通过凝胶滞留实验研究新克隆的p53下游基因调控序列与P53蛋白结合状态,并利用Northern blot、原位杂交等分子生物学实验技术研究克隆的基因在小鼠胚胎发育过程中表达规律。其次,收集已报道的p53下游基因及P53蛋白结合序列,通过统计分析,了解这些调控序列的特征信息,得到保守性一致性序列的特征,并对E1-Deiry等定义的一致性序列特征信息进行修改;利用PWM模型、词频法、串模型及E1-Deiry等定义的一致性序列中的插入序列长度等计算序列的信息特征,利用logistic回归分析方法建立p53下游基因预测新的模型。运用该模型对人类基因组DNA中p53下游基因进行预测,根据GO(Gene Ontology)功能分类标准,对预测的结果进行分类,并与利用保守性一致性序列及一致性序列预测的结果进行比较。结果:主要包括以下五个方面:一、建立了p53基因可诱导表达的转p53基因细胞系,命名为U251-pTet-p53。该细胞系在强力霉素诱导下,外源性p53基因过度表达,在没有强力霉素的培养基条件下,外源性p53基因几乎不表达。差异显示结果表明:外源性p53基因过度表达,能引起细胞内许多基因的差异表达,有的基因表达上调,有的基因表达下调。所有这些差异表达的基因都有可能是p53下游基因。对观察到的有差异表达的11个EST进行测序,其中2个代表未报道的新基因。二、建立了p53基因过度表达时的cDNA文库。并对第一部分差异显示获得的两个新的EST,进一步通过cDNA文库筛选获得全序列,分别命名为PAP1(p53 activated protein 1)(GenBank收录号:AF497245)和PAP2(p53 activated protein 2)(GenBank收录号:AY093673)。三、PAP1基因的结构与功能:1、PAP1基因的生物信息学分析表明:(1)、PAP1基因定位于人类染色体16p12-13,整个基因由6个外显子和5个内含子组成;(2)、PAP1基因启动子和前3个内含子中含有许多P53蛋白结合位点;(3)、PAP1基因cDNA全长2779bp,开放阅读框起始第282 nt,终止位点第1130nt,全长846bp。预测其编码蛋白分子量为32.9KD,理论等电点pI为5.81,化学方程式为C1505H2309N385O421S11。(4)、PAP1蛋白的二级结构:40%为α螺旋,17%为β折叠,43%为其它类型的二级结构。PAP1蛋白为亲水性蛋白,存在一个跨膜区,大约在42—79氨基酸片段,没有信号肽。(5)、PAP1基因属免疫球蛋白超家族(IGSF)成员,与黑猩猩、狗、小鼠、鸡、牛等物种具有高度同源性,在进化过程中十分保守。2、分子生物学实验结果表明:(1)、内含子2中的P53蛋白结合位点,GAGCTTGTCCcccGAtCAAGCCC,能与P53蛋白结合,说明PAP1基因是p53下游基因;(2)、PCNA免疫组织化学和细胞凋亡检测结果表明:小鼠胚胎发育的第9—10天主要以细胞增殖为主的时期;胚胎第11—14天是细胞增殖和凋亡的逐渐趋于平衡的阶段;不同组织的发育进程不同。(3)、Northern blot结果表明PAP1基因(实际上是PAP1在小鼠中的同源基因IGSF6)在小鼠胚胎不同的发育时期表达有差异。(4)、原位杂交显示:PAP1基因(实际上是PAP1在小鼠中的同源基因IGSF6)在第11—14天中,肺、肾、肠及脊柱组织中特异性表达,说明PAP1基因参与了这些主要器官的发育过程,通过与发育过程的细胞增殖与凋亡趋势比较,该基因很可能与胚胎发育过程中的细胞凋亡有关。四、PAP2基因的生物信息学分析表明:(1)、PAP2基因定位于人类17号染色体上;(2)、mRNA全长2007bp转录调控区域起始位167bp处,启动子序列在反链1998-1748处,开放阅读范952bp-1461bp,全长510bp;(3)、它编码蛋白全长169aa,分子量为19247.3,理论等电点为12.56,化学式为C818H1355N317O208S9。没有发现信号肽和跨膜螺旋结构,属于亲水性,非分泌性蛋白;(4)、PAP2蛋白亚细胞定位在核内;(5)、PAP2蛋白二级结构:α螺旋20.71%,β折叠4.14%,其他75.15%。五、本研究共收集已报道的49个p53下游基因及72条P53蛋白结合序列。1、统计分析结果:(1)、基本上与E1-Deiry等定义的一致性保守序列特征吻合,但在十聚体的绝大多数位点都存在错配,错配率在10-20%;(2)、对于整个十聚体,错配数为3的基因占34.4%,错配数为4的基因占12.7%,错配数为5的基因占6.35%。因此,我们认为用一致性序列模型预测p53下游基因时,整个十聚体的允许的错配数为4比较恰当;(3)、在一致性序列中,插入的碱基数与错配数呈正相关。2、建立logistic回归模结果如下:(1)、采用两个PWM矩阵来分别对前后十聚体建模,并采用交叉验证法确定已报道的结合序列中的模体,将确定位置的模体特征信息作为logistic回归分析的对象,通过SPSS提供的logistic回归分析模型对特征逐步选取,最终确定以前后十聚体的PWM得分作为特征信息建立了logistic回归模型:p=(exp(-4.655+0.457×hpwmsc+0.421×tpwmsc))╱(1+exp(-4.655+0.457×hpwmsc+0.421×tpwmsc))阈值设为0.1076,其中hpwmsc,tpwmsc分别表示motif的前后十聚体中PWM模型得分。(2)、用已报道的P53结合序列作为正数据集,随机挑选的CDS序列作为负数据集,并对正数据集和负数据集进行刀切法测试验证了方法的有效性,平均正确率达到了93.91%。(3)、利用我们总结的保守性一致性序列模型、修正后一致性序列模型及建立的logistic回归模型,采用Perl语言编写程序,对人类基因组数据中P53结合位点进行分析比较,表明logistic回归模型的识别性能更加优异,而且该模型还具有良好的可扩展性,能够方便地容纳新特征,使识别性能不断提高。3、对人类基因组DNA进行p53下游基因预测分析结果:(1)、利用保守性一致性序列预测到p53下游基因1693个;(2)、利用允许错配数为4的一致性序列(串模型)预测到p53下游基因22107个;(3)、利用logistic回归模型预测到p53下游基因15182个;4、基于GO对p53下游基因进行功能分类结果:(1)、细胞组分:p53下游基因主要的功能集中在细胞、细胞器及蛋白复合物等几个区域。(2)、分子功能:p53下游基因功能主要有结合、催化活性、酶调节活性、信号转导活性、结构分子行为、转译调节活性、运输行为和未知分子功能等几个方面。而在转译调节活性、运输行为和未知分子功能等功能区域中有非常多p53下游基因还没有被发现。(3)、生物过程:p53下游基因参与的生物过程主要包括细过程胞内、、生理过程、生物学过程调节、刺激应答等,在发育、未知的生物学过程等有非常多的p53下游基因还没有被发现。结论:主要包括如下:(1)建立了p53基因可诱导表达的转p53基因细胞系,命名为U251-pTet-p53。该细胞系中外源性p53基因可以被强力霉素诱导过度表达。(2)构建了p53基因过度表达时的cDNA文库。(3)PAP1基因是新克隆的p53下游基因,定位于人类染色体16p12-13,由6个外显子和5个内含子组成。PAP1基因编码的蛋白属免疫球蛋白超家族(IGSF)成员,在进化过程中十分保守。PAP1基因在小鼠胚胎发育过程中,肺、肾、肠及脊柱组织中有特异性表达,很可能与这些器官发育过程中的细胞凋亡有关。(4)PAP2基因是新克隆的p53下游基因,定位于人类17号染色体上,其编码的蛋白在进化过程中十分保守;(5)对已报道的p53下游基因分析表明,用一致性序列模型预测p53下游基因时,整个十聚体允许的错配数为4比较恰当;(6)建立了预测p53下游基因的logistic回归模型:p=(exp(-4.655+0.457×hpwmsc+0.421×tpwmsc))╱(1+exp(-4.655+0.457×hpwmsc+0.421×tpwmsc))阈值设为0.1076,其中hpwmsc,tpwmsc分别表示motif(decamers)的前后十聚体PWM中模型得分。利用该模型在人类基因组中预测到15182个p53下游基因。

论文目录

  • 摘要
  • ABSTRACT
  • 缩写词简表
  • 前言
  • 1 p53基因上游激活信号网络
  • 2 细胞内P53蛋白表达水平的维持和调节
  • 3 p53基因的下游功能网络
  • 技术线路(一)
  • 技术线路(二)
  • 第一章 p53基因诱导表达可调控细胞系的建立
  • 1 材料与方法
  • 1.1 材料
  • 1.2 方法
  • 2 结果
  • 2.1 pTRE-p53质粒的构建
  • 2.2 p53基因诱导表达可调控细胞系的建立
  • 2.3 U251-pTet-p53细胞基因表达分析
  • 2.4 差异片段的亚克隆及序列测定
  • 3 讨论
  • 3.1 生物信息学技术在基因克隆中的应用
  • 3.2 p53下游基因的克隆策略
  • 4 结论
  • 第二章 p53过度表达的cDNA文库的构建及筛选
  • 1 材料与方法
  • 1.1 材料
  • 1.2 方法
  • 2 结果
  • 2.1 RNA的提取及质量检测
  • 2.2 cDNA的合成、均一化及分级分离
  • 2.3 cDNA文库的质量评价
  • 2.4 文库筛选
  • 3 讨论
  • 3.1 cDNA文库的构建质量
  • 3.2 均一化cDNA文库
  • 4 结论
  • 第三章 PAP1基因生物信息学分析及功能初步研究
  • 1 材料与方法
  • 1.1 材料
  • 1.2 方法
  • 2 结果
  • 2.1 PAP1基因生物信息学分析
  • 2.2 PAP1基因功能初步研究
  • 3 讨论
  • 3.1 生物信息学技术在基因功能研究中的应用
  • 3.2 PAP1基因结构与功能
  • 3.3 尚需继续深入研究的课题
  • 4 结论
  • 第四章 PAP2基因生物信息学分析
  • 1 材料与方法
  • 1.1 材料
  • 1.2 方法
  • 2 结果
  • 3 讨论
  • 4 结论
  • 第五章 p53下游基因的生物信息学研究
  • 1 理论基础
  • 1.1 串模型
  • 1.2 PWM
  • 1.3 词频分析法
  • 1.4 逻辑回归分析
  • 2 数据与方法
  • 2.1 数据准备
  • 2.2 已报道的P53结合位点统计分析
  • 2.3 串模型特征计算
  • 2.4 PWM特征计算
  • 2.5 词频法
  • 2.6 logistic回归模型的建立
  • 2.7 基因组中p53下游基因的预测
  • 2.8 p53下游基因聚类分析
  • 3 结果与讨论
  • 3.1 已报道的p53下游基因一致性调控序列统计分析
  • 3.2 串模型计算结果
  • 3.3 PWM模型计算结果
  • 3.4 词频模型计算结果
  • 3.5 logistic回归模型建立
  • 3.6 p53下游基因预测及分类
  • 4 结论
  • 参考文献
  • p53基因调控网络研究进展
  • 附录
  • 致谢
  • 攻读学位期间主要研究成果
  • 相关论文文献

    • [1].PAP1基因在胆囊癌中表达的研究[J]. 中国医疗前沿 2011(12)
    • [2].野生大豆紫色酸性磷酸酶PAP1基因的克隆及分析[J]. 大豆科学 2013(05)
    • [3].铜绿假单胞菌噬菌体PaP1内溶素基因克隆、表达及活性分析[J]. 第三军医大学学报 2008(13)
    • [4].马尾松PAP1基因在烟草上的遗传转化及功能分析[J]. 农业生物技术学报 2017(06)
    • [5].双角山羊草紫色酸性磷酸酶PAP1基因的克隆及生物信息学分析[J]. 华北农学报 2015(02)
    • [6].裂殖酵母Pap1应答H_2O_2氧化胁迫的机制[J]. 中国生物化学与分子生物学报 2008(05)
    • [7].西尔斯山羊草紫色酸性磷酸酶PAP1基因的克隆及分析[J]. 西北农业学报 2014(10)
    • [8].白芨MYB类转录因子PAP1基因的克隆与表达分析[J]. 西北农业学报 2014(03)

    标签:;  ;  ;  

    PAP1和PAP2基因的克隆及其相关生物信息学研究
    下载Doc文档

    猜你喜欢