论文摘要
20世纪90年代初期开始实施的人类基因组计划(HGP),在各国科学家的共同努力下取得了巨大的成就,促进了基因组学和蛋白质组学的极大发展。现今,生物信息的信息量空前增长,人类获得了海量的氨基酸残基序列信息,蛋白质序列数据库中膜蛋白序列的数目也相应迅猛增加。膜蛋白作为生物膜的主要组成成分之一,在生物体中发挥着极其重要的作用。尽管磷脂双分子层构成了生物膜的基本框架,然而膜蛋白却始终是膜功能的主要体现者,是细胞执行各种功能的物质基础。近些年的研究报道更加表明,某些膜蛋白结构或者功能的改变与人类疾病的产生有着密切的联系,相应受体膜蛋白也成为药物设计的重要靶点。因此,通过膜蛋白的一级序列预测其所属类型以获取相关的高级结构和功能信息是一项极其重要且具有挑战性的研究工作。然而在后基因组时代,面对浩如烟海的序列信息,利用分子生物学实验方法来预测膜蛋白类型不仅费时、费财、费力,而且实验中可能还会遇到一些目前无法解决的困难,已经逐渐难以满足现实的要求。因此发展全新的生物信息学手段、实现高效可靠的计算方法来挖掘膜蛋白序列中的特征信息,进而研究膜蛋白的高级结构和功能就显得愈加重要,这也正是后基因组时代生物信息学研究领域的核心问题之一。膜蛋白序列的特征提取是基于计算的膜蛋白分类研究中最为基本的问题,也是决定分类质量的关键。本文从膜蛋白的一级序列出发,研究了膜蛋白结构、功能类型的分类预测问题,提出和实现了两种不同的特征提取算法,并在标准数据集上进行了测试验证和比较分析。现将主要工作和创新之处概括如下:⑴整理和构建膜蛋白序列数据集。针对膜蛋白分类问题,从各大国际公共数据库及大量公开发表的文献中,收集整理了相应的标准数据集,以保证后续实验分析、比对的科学公正性;分析已有标准数据集的构建准则,以备能够进一步根据Swiss-Prot数据库中的更新数据构建更为完整和理想的数据集。⑵分类预测未知类型的膜蛋白对于生物学相关研究具有指导性意义,是膜蛋白结构与功能研究领域的一项重要基础性工作。针对膜蛋白分类预测问题,本文着眼于氨基酸残基之间的顺序关联性,利用k子串离散源的方法对膜蛋白序列进行特征提取,并融合最小离散增量方法和K近邻算法(KNN)构建了一种新型的膜蛋白分类预测模型。基于膜蛋白标准数据集CE2059和CE2625,在自检验、Jackknife检验和独立测试集检验三种典型的检验方式下,预测准确率分别为99.95%、86.16%和98.36%。实验结果表明,k子串离散源方法能够有效提取膜蛋白序列的特征信息,与现有方法相比,该分类模型具有较高的总体分类精度。⑶为了能够获得具有更好预测精度的分类模型,更大限度地挖掘膜蛋白序列中所蕴含的结构和功能信息,本文进一步考虑氨基酸残基的物理化学特性以及氨基酸残基之间的长程相关性。针对膜蛋白分类预测问题,在氨基酸组分基础上引入氨基酸位置信息,计算多种氨基酸残基指数的相关系数并选择最优组合方式,进一步融合两类特征信息对膜蛋白序列进行特征提取,最后采用支持向量机(SVM)作为分类器,构建了一种新颖的膜蛋白分类模型。基于膜蛋白标准数据集CE2059和CE2625,在自检验、Jackknife检验和独立测试集检验三种典型的检验方式下,预测准确率分别为98.25%、88.10%和95.62%,相对已有的膜蛋白分类方法具有显著的改善,说明多特征融合提取方法能够更加深刻地表征蕴含在膜蛋白氨基酸序列中的特征信息,所构建的分类模型获得了很好的分类性能。
论文目录
相关论文文献
标签:蛋白质组学论文; 生物信息学论文; 膜蛋白论文; 特征提取论文; 子串论文; 离散源论文; 权重氨基酸组分论文; 氨基酸指数论文; 相关系数论文;