论文摘要
本论文运用主成分分析法对人类启动子序列进行特征提取,并建立人类启动子识别模型对人类基因序列进行分析,获得较好实验结果。启动子是位于结构基因5’端转录起始点上游的一段DNA序列,它包含着一些可以被转录因子识别出的结合域。启动子就像“开关”,通过与转录因子的集合,决定了转录发生的时间和地点。由于启动子区域临近转录起始点,所以寻找基因的起始位置可以通过预测启动子区域来完成。启动子可以控制基因的“开”或者“关”,从而决定了多细胞组织中的细胞类型。不正确的基因调控可以导致很多疾病,例如癌症。因此,启动子本身也具有重大的研究意义。随着人类基因工程的发展,人类的基因序列已基本完成排序,但是仍有很多的编码基因以及他们的启动子区域被遗漏掉;其他物种的启动子区域识别并不像人类基因工程有大量的数据库支持。因此,建立一个精准的启动子识别模型是解决这些问题的关键。启动子的特征主要分为两种:信号特征和内容特征。其中主要的信号特征CpG岛, TATA框, CAAT框,启动因子等。DNA序列由四种核苷酸做成,他们分别是腺嘌呤(adenine,缩写为A),胞核嘧啶(cytosine,缩写为C),鸟嘌呤(guanine,缩写为G),胸腺嘧啶(thymine,缩写为T)。内容特征可以用n-mer来代表所有的特征。它是由n个核苷酸做成的序列,例如密码子(3-mer),五聚物(5-mer),六聚物(6-mer)等。现有的启动子识别系统将这些特征从训练集中提取出来嵌入模型中,已达到对启动子,非启动子分类的目的。用于进行特征提取选择方法中,常见的有位置权重矩阵,隐马尔可夫模型等,还有一些系统开发了自己的统计方法进行特征的选择。用于建模分类的方法有位置权重矩阵,人工神经网络,支持向量机,相关向量机等。主成分分析法是进行多变量分析一种有效的方法,其主要思想是原变量矩阵投影到新的空间,获得一组新的变量。通过对原变量空间变换,只有能够代表原空间绝大部分变量主要成分被保留下来,形成新的空间,从而达到降维的目的。DNA序列本身包含大量信息,而高精度、高效率的分类器需要最有效的特征。内容特征在启动子识别中占很重要的地位,在整个基因组范围内的启动子区域识别有更普遍的模式。几乎所有信号特征也可以用内容特征来表达。本实验用主成分分析法从训练集中选取可以有效区分启动子序列和非启动子序列的内容特征。为了找到高区分率的内容特征组合,首先分别从训练集提取3-mer, 4-mer和5-mer的出现频率矩阵。训练集由5000条人类启动子序列以及5000条人类外显子序列组成。启动子序列来源于转录起始点数据库(data base of transcription start sites, DBTSS),外显子序列来源于外显子-内含子数据库(exon-intron data base, EID)。通过排列组合,归一化,3个频率矩阵,可以组成3-mer,4-mer,5-mer,3-mer和4-mer,4-mer和5-mer,3-mer和5-mer,以及3-mer、4-mer和5-mer共7个新的矩阵。将启动子与外显子的7个矩阵对应组合起来,在由主成分分析法进行分析,从每组矩阵选取3个主成分,得到7个新的3维向量空间。最后,将原启动子-外显子组合矩阵投影到对应的向量空间上,准备通过神经网络训练以及测试,检验其分类有效性。序列的测验与检验由一个3层BP神经网络实现。3层的传递函数分别为“tan-sigmoid”,“log-sigmoid”,“tan-sigmoid”.训练步数设为10000,分类阀值设为0.5。为了进行比较,我们采用两个评价指标:灵敏度,特异性。测试集由区别于训练集的5000条人类启动子序列以及5000条人类外显子序列组成。最终,由3-mer和5-mer组合特征矩阵训练的网络得到了最佳的性能指标:灵敏度为0.7340,特异性为0.6500。由此,本实验中的人类启动子识别网络将采用3-mer和5-mer矩阵作为分类特征。另外作为信号特征的CpG岛将结合选定的内容特征共同运用于识别系统中。我们提出两个搭建人类启动子识别网络的两种方案(图1,图2)。方案1与方案2的区别在于对CpG岛信号特征的利用上。方案2首先将输入序列分为CpG岛相关序列与CpG岛非相关序列,再将已分类的序列输入到分类器中。方案1将序列同时输入到CpG岛相关性判断模块与分类器中,再将CpG到相关性判断结果与分类器输出结果相结合得出最终分类结果。为了对长序列进行分析,网络前端设置了一个窗口。窗口宽度为300bp,移动步距为20bp。在方案1中,每一条从窗口输出的短序列都会从CpG岛模块(CpG islands module)中得到一个分数,同时,特征提取模块(feature generation module)从该序列中提取3-mer和5-mer的特征向量。PCA模块将3-mer和5-mer特征向量投影到在训练过程中运用PCA算法创建的新的特征空间中,从而得到新的特征向量。新向量随后被送到三个分类器:启动子与外显子分类器(Promoter vs. Exon classifier),启动子与内含子分类器(Promoter vs. Intron),启动子与3端非转录序列(3’UTR)分类器(Promoter vs. 3’UTR classifier)。数据处理模块(data processing module)结合CpG岛模块和三个分类器输出结果做出预测。方案2中,长度为300bp的序列在CpG岛模块中分类, CpG岛相关序和非相关序列分别通过与方案1种相同的特征提取模块和PCA模块,随后被送到CpG岛相关序列分类器组和CpG岛非相关序列分类器组,两组分类结果通过各自数据处理模块得出结果。在方案1上进行网络参数优化。分类器中优化的网络参数通过三组比较实验得出:首先固定输入向量的维数(3)和神经网络的层数(3),得出各层间优化传递函数―tan-sigmoid‖,―log-sigmoid‖,―tan-sigmoid‖,以及隐藏层神经元数(20)。第二步,固定神经网络的层数和各层间的优化传递函数,得出优化的输入向量维数为6,同时确定采用6个由主成分分析法选取的主要成分。第三步,在前两步的基础上得出优化的神经网络层数为4,即两个隐藏层。由于两个方案中分模块的内部网络结构相同,故可将相同的优化的网络参数运用到两个方案的分类器中。方案2分类器训练有别于方案1,首先将启动子和非启动子序列都分为CpG岛相关序列和CpG岛不相关序列,再对应到两组分类器中进行训练。最后建立两个测试集对两个方案分别测试。测试集1由有标注的5000条人类启动子序列和6000条非启动子序列组成,重点测试网络分类能力。启动子序列来源于转录起始点数据库和真核生物启动子序列数据库(eukaryotic promoter database, EPD),2000条外显子序列和2000条内含子序列来源于外显子-内含子数据库,2000条3端非转录序列来源于非转录序列数据库(Untranslated sequence database, UTRdb)。启动子测试集2由3条人类DNA序列组成,重点测试网络预测能力。最终,方案1的性能指标在两组测试中均领先,故被选定为正式方案,系统命定为HPR-PCA。为了测评HPR-PCA的性能指标,我们选用三个广受好评的启动子识别系统DrangonGSF,Eponine,FirstEF进行比较。测试基于三组不同的数据。测试集1由来自于Genebank的四条人类基因作组成,总长度为0.95Mbp,包含14个已知转录起始点。比较中,HPR-PCA以灵敏度0.6429,特异性0.4500的性能指标位居四个系统中首位。测试集2也采用网络空开资源提供的完整的人类染色体22序列,长度为34.75Mbp,包含393已标注的转录起始点。HPR-PCA综合指标大幅领先于其他系统,灵敏度和特异性分别高达0.7659和0.8244。测试集3由7条提取自人类染色体22的基因序列,其标注不同于测试集2。序列的总长度为11.56Mbp,包含94个转录起始点。在测试中,HPR-PCA再次以最高的综合性能领先灵敏度和特异性为别为0.5319,0.7246。通过多组数据比较,HPR-PCA在基因组范围启动子预测显示出其优势。不同于其它三个系统,HPR-PCA采用主成分分析法将DNA序列中提取的高维特征组降维,这种特征选择方法成功的运用于识别网络中,得出较好的实验结果,在人类基因组范围内的识别中表现突出。HPR-PCA利用了启动子的信号和内容特征对DNA序列进行分类,但是忽略了启动子信号的位置特征。然而,新兴的启动子识别方法提出了对启动子结构特征进行研究。例如,挠性(flexibility),刚性(rigidity)和柔性(bendability)特征均是从三维空间提取得特征。这些结构特征区别于内容特征,可以为以建立的启动子识别系统提供重要的补充信息。将结构特征运用于启动子识别系统中将作为未来工作的重点。