论文摘要
理解大量生物学数据所包含的生物学意义已成为后基因组时代极其重要的课题,生物信息学的作用将日益重要。面对海量的蛋白质序列数据,引入智能算法对其进行处理,这对研究蛋白质结构和功能具有重要意义。由于蛋白质结构和功能具有高度的复杂性。采用常用实验的方法对有些蛋白质(如很难结晶或巨分子蛋白)很难得到其三维结构,且实验方法成本高,耗时间。通过计算机进行模拟,采用智能算法对蛋白质结构和功能进行预测,近年来受到研究者们越来越多的关注。本文提出了一种新的蛋白质序列可视化方法,并在标准数据集上与其他方法进行了比较并验证了其有效性。本文的创新之处概括如下:(1)本文提出一种蛋白质序列新的可视化方法——距离矩阵图。蛋白质序列的氨基酸的疏水性(hydrophobicity)值、亲水性(hydrophilicity)值、侧链分子量(side-chain mass)值作为此氨基酸的空间坐标,通过空间坐标计算序列中各个氨基酸之间的距离,将距离矩阵视作一种纹理图像,即将每一个矩阵元素对应为一个图像像素,每个元素值被映像为对应像素的灰度值,得到蛋白质距离矩阵图,此图能反映蛋白质序列的总体特征。(2)构造出一种新的伪氨基酸成分。将距离矩阵图的几何矩作为伪氨基酸成分,此伪氨基酸成分能很好的反映蛋白质序列特征。(3)基于所提出的蛋白质距离矩阵图设计了多个蛋白质序列分类预测器(HPVs(人类乳头瘤病毒)风险类型、蛋白质二级结构类型预测、GPCR类型预测),这些预测器与现有预测器相比,预测成功率都有提高。(4)基于氨基酸数字编码模型,针对氨基酸成分法的不足,构造出一种十进制数字编码模型,通过对核受体(Nuclear receptor)分类显示,其结果高于氨基酸成分法。