论文摘要
对未知蛋白的功能注释是蛋白质组学的主要目标,其中一个关键的注释是对蛋白质亚细胞定位的识别。蛋白质必须处于合适的亚细胞位置才能发挥其功能,因此蛋白质的亚细胞定位信息对于了解其功能有重要意义。本文基于蛋白质的N端信号和氨基酸组分,从氨基酸序列出发,对植物和非植物两类蛋白质数据集进行了亚细胞定位识别。首先,对不同亚细胞定位分类的蛋白质序列数据集进行特征分析,包括序列的单氨基酸出现频率、紧邻二联体频率和N端信号特征。结果显示单氨基酸组分分布在各亚细胞定位分类的蛋白质序列数据集中有些差别,但不很显著;紧邻二联体频率在各亚细胞定位分类的蛋白质序列数据集中是有区别的;N端信号特征在分泌类蛋白质数据集中与另外三类数据集(植物)或两类数据集(非植物)有明显区别,并且N端特征区别主要集中在N端前30个位置。其次,我们采用了不同的分类特征应用多样性增量方法(ID)进行识别。(1)以N端信号特征为分类特征,取N端前20位氨基酸分布构成400维信息参数。(2)以氨基酸紧邻二联体频数为特征构成400维信息参数。(3)选取氨基酸频数为特征构成20维信息参数。(4)综合N端信号和紧邻二联体频数等特征构成800维信息参数。(5)综合N端信号特征、氨基酸出现频数、紧邻二联体频数等特征构成820维信息参数。分别用自洽检验和5折交叉检验对植物、非植物各类亚细胞定位分类蛋白质数据集进行识别。结果显示应用多样性增量方法识别优劣的核心是特征参数选择的合适与否;在综合不同类信息时,用ID算法直接将多类信息线性整合在同一个多样性量中并不一定能直接提高识别精度。最后,应用多样性增量结合二次判别分析方法(IDQD)进行识别,通过筛选后选取紧邻二联体频数、N端信号特征作为ID的信息参数,用二次判别函数把它们整合。在自洽检验中,植物4类亚细胞定位总预测成功率为96.8%,非植物三类预测总成功率为92.7%;对植物和非植物5-fold交叉检验的总预测成功率分别为87.4%和91.2%。结果表明IDQD算法获得了较高的识别精度,并验证了IDQD是一个有效的分类器。