论文摘要
一、高通量基因芯片Data的实验研究背景U133 Data:Affymetrix公司HG-U133 Plus 2.0芯片检测4例非肿瘤鼻咽上皮和12例鼻咽癌(nasopharyngeal carcinoma,NPC)组织。H80s Data:上海博芯公司H80s基因芯片检测10例非肿瘤鼻咽上皮和23例NPC组织,获得503个鼻咽癌差异表达基因。TW-U133 Data:HG-U133 Plus 2.0芯片检测10例正常鼻咽和31例NPC组织,获得831个NPC差异表达probesets。二、系统构建NPC全基因组表达谱与NPC差异基因表达谱将U133 Data分为“非肿瘤鼻咽上皮"和“NPC”,以“P call%≥75%,表达值在75%的某组样本≥20.00”为标准筛选基因芯片probesets表达数据,非肿瘤鼻咽上皮和NPC组织共表达15982个probesets,其中12555个在两组都表达,2540个probesets在非肿瘤鼻咽上皮明确表达,887个probesets只在NPC中明确表达。Hierarchical Clustering和对应分析显示,U133 Data中非肿瘤鼻咽组织与NPC组织在全基因表达谱上存在明显差异,但聚类结果与NPC临床分期及病理分型无关。采用2-FOLD,t test,p<0.05,p<0.01和p<0.001标准,U133 Data中分别筛选到919个、550个和192个NPC差异表达probesets。Hierarchical Clustering和对应分析显示,NPC差异表达基因能够区分NPC和非肿瘤鼻咽上皮。NPC上调基因E2F6、KRT15、DEPDC1、BRIP1、FLJ21901、CCT6A、FIGNL1、PUS7、KIAA1794、CSE1L、NFE2L3、IDH1、HOXA10,下调基因Clorf178、LTF、LXN、BEXL1、CLDN10、PIGR、WFDC2、CEACAM6、SLC44A4、C20orf114、MS4A1、FOLR1、CYP2B7P1、MEIS3P1、MLPH的表达在U133 Data每个NPC组织与非肿瘤鼻咽上皮中的差异均大于或等于1.5倍。U133 Data、H80s Data和TW-U133 Data共筛选出1061个NPC上调基因,630个下调基因。其中234个上调基因和70个下调基因在任意2组数据中共存(ANY2 Data),三组数据同时存在30个上调基因,7个下调基因,通过免疫组化和原位杂交证实了LTF和FZD7基因在鼻咽癌组织中的表达分布。其中,上调基因CCT6A和IDH1,下调基因LTF和PIGR在U133 Data数据中,每个NPC组织与非肿瘤鼻咽上皮表达差异均大于或等于1.5倍,进一步提示这些基因可能是NPC的分子标记。三、NPC差异表达基因的功能分类通过多种生物信息学软件对三组高通量基因芯片数据的综合分析,系统评价NPC差异表达基因的功能分类。Panther软件分析发现,U133 Data NPC上调基因参与的55条pathway的实际参与基因数量超过预期基因值,而“Cell cycle”、“p53pathway”、“De novo purine biosynthesis”和“p53 pathway feedbackloops 2”等4条pathway的P值<0.05。H80s Data NPC上调基因共参与71条pathway,57条pathway的实际参与基因数量超过预期基因值,但没有pathway的P值<0.05,其中“Cell cycle”的P值最小,为0.191。TW-U133 Data NPC上调基因共参与54条pathway,39条pathway的实际参与基因数量超过预期基因值,其中“Integrin signalingpathway”和“p53 pathww feedback loops 2”的P值<0.05。3组Data中NPC上调基因共参与47个相同的Pathway,基因数大于预期的pathway共有2 1个,但没有pathway在3组数据中同时P<0.05。ANY2 Data中234个上调基因共参与52个pathway,42个超过预期基因数,而“Integrin signalling pathway”和“Cell cycle”的P值小于0.05。U133 Data中NPC下调基因共参与46条pathway,其中有42条pathway超过了预期基因数,但P值均大于0.05。H80s Data中NPC下调基因共参与36条pmhway,其中有25条pathway超过了预期基因数,但其P-Value均没有小于0.05。TW-U133 Data下调基因共参与44条pathway,其中有24条pathway超过了预期基因数,只有“Huntingtondisease”pathway的P-Value小于0.05,为0.002。虽然3组Data中NPC下调基因参与Pathway有15个相同,5个Pathway超过预期数,但其P值均大于0.05。ANY2 Data中下调基因只参与了3个pathway,而且每个pathway仅仅只包含了一个下调基因。利用“KEGG PATHWAY"和“BIOCARTA”数据库对NPC差异表达基因进行pathway分析显示,U133 Data中上调probesets参与9个KEGG pathway和5个BIOCARTA pathway的EASE score小70.05。虽然下调probesets参与29个KEGG PATHWAY和8个BIOCARTApathway,但没有pathway的EASE score小于0.05。而H80s Data中只有上调基因参与的KEGGPATHWAY的“hsa04110:Cell cycle”的EASEscore小于0.05。TW-U133 Data中上调基因参与的3条“BIOCARTA”数据库pathway的EASE score<0.05,分别为“hatmPathway:ATMSignaling Pathway”、“hprionPathway:Prion Pathway”和“hDNAfragmentPathway:Apoptotic DNA fragmentation and tissuehomeostasis”;8条“KEGG PATHWAY”EASE score<0.05,分别为“hsa04110:Cell cycle”、“hsa04510:Focal adhesion”、“hsa05222:Small cell lung cancer”、“hsa04512:ECM-receptorinteraction”、“hsa01430:Cell Communication”、“hsa04620:Toll-likereceptor signaling pathway”、“hsa04115:p53 signaling pathway”、和“hsa05060:Prion disease”。下调基因参与的“hsa00980:Metabolism ofxenobiotics by cytochrome P450”、“hsa05131:Pathogenic Escherichiacoli infection-EPEC”和“hsa05130:Pathogenic Escherichia coliinfection-EHEC”等3条pathway的EASE score<0.05。ANY2 Data中上调基因参与的2条“BIOCARTA”数据库pathway的EASE score<0.05,分别为“hatmPathway:ATM Signaling Pathway”、和“hranMSpathway:Role of Ran in mitotic spindle regulation”;6条“KEGG PATHWAY”EASE score<0.05,分别为“hsa04110:Cell cycle”、“hsa04510:Focal adhesion”、“hsa05222:Small cell lung cancer”、“hsa04512:ECM-receptor interaction”、“hsa01430:Cell Communication”和“hsa04115:p53 signaling pathway”。下调基因参与的“hsa04640:Hematopoietic cell lineage”和“hsa04610:Complement andcoagulation cascades”等2条pathway的EASE score<0.05。PANTHER软件分析结果显示,U133 Data上调基因101个BP分类中实际参与基因数超过预期基因数,“Cell cycle”、“DNAmetabolism”、“Mitosis”、“Nucleoside.nucleotide and nucleic acidmetabolism”、“Cell cycle control”、“DNA replication”、“Purinemetabolism”、“Chromosome segregation”和“DNA repair”等9个BP分类的P值<0.05。H80s Data NPC上调基因参与81个BP分类实际参与基因数超过预期,“Cell cycle”、“Cell cycle control”、“DNA metabolism”和“Mitosis”等4个BP分类P值<0.05。TW-U133 Data上调基因“Cell cycle”、“DNA metabolism”、“Mitosis”、“DNA replication”、“Chromosome segregation”、“Nucleoside,nucleotide and nucleic acid metabolism”、“Cellproliferation and differentiation”、“DNA repair”和“Cell cycle control”等9个BP分类P值<0.05。三组Data中NPC上调基因共参与107个相同的GO BP分类,基因数大于预期的BP分类共有37个,其中“Cell cycle”、“Cell cyclecontrol”、“DNA metabolism”和“Mitosis”等4个BP分类在3组数据中同时P<0.05。ANY2 Data上调基因共参与130个BP分类,102个超过预期基因数,“Nucleoside,nucleotide and nucleic acidmetabolism”、“Cell cycle”、“Cell proliferation and differentiation”、“Cellstructure and motility”和“DNA metabolism”等11个BP分类的P值小于0.05U133 Data下调基因参与的71个分类超过预期基因数,只有“Homeostasis”分类的P值=0.009。H80s Data下调基因共参与149个BP分类,105个分类超过预期基因数,但P-Value均没有小于0.05。TW-U133 Data下调基因共参与134个BP分类,在超过预期基因数的65个分类中,“Cell structure and motility”和“Cell structure”这2个BF分类的P-Value小于0.05。三组Data中NPC下调基因参与BP分类有77个相同,21个BP分类超过预期数,但其P值均大于0.05。ANY2 Data中70个下调基因共参与80个BP分类,67个分类超过预期基因数,“Immunity anddefense”的P值小于0.05。U133 Data上调基因共参与186个MF分类,126个分类超过预期基因数,“Nucleic acid binding”、“Synthase and synthetase”、“Kinaseactivator”、“Chaperonin”4个分类的P值<0.05。H80s Data上调基因共参与144个MF分类,95个分类超过预期基因数,其中“Kinase activator”和“Helicase”这两个MF分类的P值<0.05。TW-U133 Data上调基因共参与141个MF分类,96个分类超过预期基因数,“Extracellular matrixstructural protein”、“Extracellular matrix”和“DNA helicase”等3个分类的P值<0.05。三组Data中NPC上调基因共参与106个相同的GO MF分类,基因数大于预期的BP分类共有44个,但没有MF分类在3组数据中同时P<0.05。ANY2 Data上调基因共参与127个MF分类,91个超过预期基因数,“Kinase activator”、“Synthase and synthetase”、“Extracellular matrix structural protein”、“Kinase modulator”和“Othercytokine”等5个MF分类的P值小于0.05。U133 Data下调基因共参与95个MF分类,71个分类超过预期基因数,只有“Homeostasis”分类的P值=0.009。H80s Data下调基因共参与128个MF分类,89个分类超过预期基因数,“Oxidoreductase”分类的P值为0.0011。TW-U133 Data下调基因共参与129个MF分类,69个分类超过预期基因数,“Cytoskeletal protein”、“Microtubule familycytoskeletal protein”和“Serine protease inhibitor”等3个MF分类的P值小于0.05。三组Data中下调基因参与的MF分类有66个相同,26个MF分类超过预期数,但其P值均大于0.05。ANY2 Data中70个下调基因共参与76个MF分类,71个分类超过预期基因数,“Defense/immunity protein”、“Oxidoreductase”和“Serine protease inhibitor”的P值小于0.05。DAVID软件分析结果显示,U133 Data、H80s Data和TW-U133上调基因均参与细胞周期和有丝分裂相关的“mitotic cell cycle”、“cellcycle”、“cell division”、“regulation of progression through cell cycle”、“regulation of ceil cycle”、“M phase”、“M phase of mitotic cell cycle”、“mitosis”、“spindle organization and biogenesis”和“microtubulecytoskeleton organization and biogenesis”等GO BP分类。U133 Data中下调基因参与38个EASE score小于0.05的BP分类。其中,“humoral immune response”和“complement activation,classical pathway”两个分类的EASE score小于0.001。H80s Data下调基因参与29个BP分类EASE score小于0.05,且大部分分类与免疫反应和补体系统有关。TW-U133 Data下调基因参与31个分类EASE score<0.05,细胞骨架功能相关的4个分类EASE score<0.001。U133 Data上调基因参与的5个EASE score小于0.001的GO MF分类分别为“protein binding”、“DNA-dependent ATPase activity”、“binding”、“ATP binding”和“adenyl nucleotide binding”。H80s Data中上调基因参与的EASE score小于0.05的GO MF分类共有11个,均与核酸代谢有关。TW-U133 Data中上调基因参与23个MF分类EASEscore小于0.05,“extracellular matrix structural constituent”EASE score最小,小于0.001。U133 Data下调基因涉及的MF分类有10个EASE score小于0.05。H80s Data下调基因参与9个MF分类EASE score小于0.05,其中“GO:0004857:enzyme inhibitor activity”、“GO:0030414:proteaseinhibitor activity”和“GO:0004866:endopeptidase inhibitor activity”等3个分类的EASE score小于0.001。TW-U133 Data下调基因参与15个分类EASE score小于0.05,其中“motor activity”和“microtubule motoractivity”分类的EASE score小于0.001。三组Data中,NPC相关上调基因参与相同31个的BP分类,8个MF分类,但只有“hsa04110:Cell cycle”这1个KEGGPATHWAY相同。下调基因参与“GO:0002526:acute inflammatory response”和“GO:0006959:humoral immune response”2个相同的BP分类,“GO:0004857:enzyme inhibitor activity”、“GO:0004866:endopeptidase inhibitor activity”和“GO:0030414:protease inhibitoractivity”等3个相同的MF分类。ANY2 Data中BP分类有125个分类EASE score小于0.05,绝大部分<0.001的分类均与细胞周期和细胞分裂相关。下调基因参与38个分类EASE score小于0.05,免疫功能相关的12个BP分类EASE score小于0.001。NPC上调基因参与的30个MF分类EASE score小于0.05,多个核酸结合及合成相关分类EASE score0.001。下调基因参与的EASE score小于0.05的MF分类有7个,3个与酶抑制剂活性相关MF分类EASE score小于0.001。三组Data和ANY2 Data的“Functional Annotaion Clustering”结果显示,上调基因主要涉及细胞周期调控、细胞有丝分裂和细胞骨架形成,而下调基因主要涉及蛋白酶活性抑制、免疫防御反应和离子转运,整合结果与上面pathway、BP和MF分类分析一致。四、NPO差异表达基因的染色体遗传图谱和物理图谱绘制U133 Data和TW-U133 Data差异表达基因精确定位显示,在1号和2号染色体上的差异表达基因最多,占总差异表达基因的20%以上。差异表达基因定位染色体显著性聚集分析发现,U133 Data共有54个显著性区段,其中上调基因42个,下调基因12个。TW-U133Data共有64个显著性区段,29个上调,35个下调。综合分析显示,U133 Data和TW-U133 Data共形成71个上调基因显著性聚集区,47个下调基因聚集区,而35个聚集区在染色体上重叠。U133 Data和TW-U133 Data6个重叠的下调基因显著性聚集区段分别位于1q31.3-1q42.11、2q36.3-2q37.3、3p21.2-3p25.2、11p12-11q14.2、20q11.21-20q13.2和Xq22.1-22.2。ANY2 Data共包括234个上调基因和70个下调基因,共存在16个上调基因和6个下调基因显著性聚集区。而“U133和TW-U133两组染色体显著性聚集重叠区”与ANY2 Data在染色体有16个重叠区,上调基因聚集重叠区13个,分别为1q22-32.3、2p15-16.1、2q23.1-35、4q21.1-21.21、4q26-27、6p22.1-24.1、8p21.1-21.1、9q31.2-31.3、10q22.2-24.32、14q21.3-22.1、15q13.2-q26.3、18p11.1和18q21.2,下调基因重叠区3个,1q32.1-32.2、3p21.31-p21.32和20q13.12。根据鼻咽癌差异表达基因的在染色体上的聚集区域,通过绘制鼻咽癌差异表达基因的遗传图和物理图,构建了鼻咽癌差异表达基因的基因组/染色体定位图。定位于重叠的鼻咽癌差异显著聚集区段的上调基因IDH1、下调基因LTF和PIGR在U133 Data数据中每个NPC组织与非肿瘤鼻咽上皮表达差异均大于2倍,提示可以作为鼻咽癌的临床分子标记物。五、三组数据共存的NPC差异表达基因及其功能验证三组数据共存的NPC差异表达基因有15个参与MHCI-mediatedimmunity,10个参与cell communication和KRAB box transcriptionfactor。上调基因参与细胞周期、有丝分裂、核酸代谢,下调基因多与金属离子、阳离子结合有关。LPI、LTF和PIGR这3个下调基因之间存在独特的功能联系。通过免疫组化和细胞周期相关蛋白的检测,发现LTF基因是一个鼻咽癌易感基因,在NPC组织,尤其是在伴有淋巴结转移的NPC组织中表达明显下调,LTF基因通过调节cyclins/CDKs/CKI/pRb为核心的G1/S期细胞周期网络调控系统来抑制细胞周期的进程,从而抑制鼻咽癌细胞的侵袭和转移。六、构建NPC不同临床阶段的差异表达基因数据库不同临床分期相关的NPC差异表达基因中,早期NPC上调基因主要参与细胞周期、核酸代谢、蛋白修饰合成、免疫反应和转录,下调基因主要参与代谢、对外界刺激的反应以及免疫防御。晚期下调的基因则主要参与代谢途径。七、本实验室前期克隆的NPC候选抑瘤基因本实验室前期克隆的NPC候选抑瘤基因中PRR4、PLUNC和C1orf102这3个基因在U133 Data中的表达差异达到2倍以上。