膜蛋白分类问题的特征提取算法研究

膜蛋白分类问题的特征提取算法研究

论文摘要

20世纪90年代初期开始实施的人类基因组计划(HGP),在各国科学家的共同努力下取得了巨大的成就,促进了基因组学和蛋白质组学的极大发展。现今,生物信息的信息量空前增长,人类获得了海量的氨基酸残基序列信息,蛋白质序列数据库中膜蛋白序列的数目也相应迅猛增加。膜蛋白作为生物膜的主要组成成分之一,在生物体中发挥着极其重要的作用。尽管磷脂双分子层构成了生物膜的基本框架,然而膜蛋白却始终是膜功能的主要体现者,是细胞执行各种功能的物质基础。近些年的研究报道更加表明,某些膜蛋白结构或者功能的改变与人类疾病的产生有着密切的联系,相应受体膜蛋白也成为药物设计的重要靶点。因此,通过膜蛋白的一级序列预测其所属类型以获取相关的高级结构和功能信息是一项极其重要且具有挑战性的研究工作。然而在后基因组时代,面对浩如烟海的序列信息,利用分子生物学实验方法来预测膜蛋白类型不仅费时、费财、费力,而且实验中可能还会遇到一些目前无法解决的困难,已经逐渐难以满足现实的要求。因此发展全新的生物信息学手段、实现高效可靠的计算方法来挖掘膜蛋白序列中的特征信息,进而研究膜蛋白的高级结构和功能就显得愈加重要,这也正是后基因组时代生物信息学研究领域的核心问题之一。膜蛋白序列的特征提取是基于计算的膜蛋白分类研究中最为基本的问题,也是决定分类质量的关键。本文从膜蛋白的一级序列出发,研究了膜蛋白结构、功能类型的分类预测问题,提出和实现了两种不同的特征提取算法,并在标准数据集上进行了测试验证和比较分析。现将主要工作和创新之处概括如下:⑴整理和构建膜蛋白序列数据集。针对膜蛋白分类问题,从各大国际公共数据库及大量公开发表的文献中,收集整理了相应的标准数据集,以保证后续实验分析、比对的科学公正性;分析已有标准数据集的构建准则,以备能够进一步根据Swiss-Prot数据库中的更新数据构建更为完整和理想的数据集。⑵分类预测未知类型的膜蛋白对于生物学相关研究具有指导性意义,是膜蛋白结构与功能研究领域的一项重要基础性工作。针对膜蛋白分类预测问题,本文着眼于氨基酸残基之间的顺序关联性,利用k子串离散源的方法对膜蛋白序列进行特征提取,并融合最小离散增量方法和K近邻算法(KNN)构建了一种新型的膜蛋白分类预测模型。基于膜蛋白标准数据集CE2059和CE2625,在自检验、Jackknife检验和独立测试集检验三种典型的检验方式下,预测准确率分别为99.95%、86.16%和98.36%。实验结果表明,k子串离散源方法能够有效提取膜蛋白序列的特征信息,与现有方法相比,该分类模型具有较高的总体分类精度。⑶为了能够获得具有更好预测精度的分类模型,更大限度地挖掘膜蛋白序列中所蕴含的结构和功能信息,本文进一步考虑氨基酸残基的物理化学特性以及氨基酸残基之间的长程相关性。针对膜蛋白分类预测问题,在氨基酸组分基础上引入氨基酸位置信息,计算多种氨基酸残基指数的相关系数并选择最优组合方式,进一步融合两类特征信息对膜蛋白序列进行特征提取,最后采用支持向量机(SVM)作为分类器,构建了一种新颖的膜蛋白分类模型。基于膜蛋白标准数据集CE2059和CE2625,在自检验、Jackknife检验和独立测试集检验三种典型的检验方式下,预测准确率分别为98.25%、88.10%和95.62%,相对已有的膜蛋白分类方法具有显著的改善,说明多特征融合提取方法能够更加深刻地表征蕴含在膜蛋白氨基酸序列中的特征信息,所构建的分类模型获得了很好的分类性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.2.1 膜蛋白类型概述
  • 1.2.2 国内外研究现状
  • 1.3 本文主要工作及创新
  • 1.4 论文结构
  • 第二章 膜蛋白序列的特征提取和分类算法
  • 2.1 引言
  • 2.2 蛋白质序列的特征提取算法
  • 2.2.1 基于氨基酸组成和位置的特征提取方法
  • 2.2.2 基于氨基酸物理化学特性的特征提取方法
  • 2.2.3 其它特征提取方法
  • 2.3 蛋白质分类算法
  • 2.3.1 基于统计的分类算法
  • 2.3.2 基于机器学习的算法
  • 2.4 分类模型构建的相关技术
  • 2.4.1 数据集的构建
  • 2.4.2 模型的检验
  • 2.4.3 模型的评估
  • 2.5 本章小结
  • 第三章 基于 k 子串离散源特征提取的分类
  • 3.1 数据集
  • 3.2 离散源与离散增量
  • 3.3 k 子串离散源特征提取算法
  • 3.4 K 近邻算法
  • 3.5 实验结果与分析
  • 3.5.1 子串长度k 的最优选取
  • 3.5.2 近邻数目K 的选取
  • 3.5.3 分类预测结果及分析比对
  • 3.6 本章小结
  • 第四章 基于多特征融合提取方法的分类
  • 4.1 数据集
  • 4.2 特征提取
  • 4.2.1 位置权重氨基酸组分(ωAAC)
  • 4.2.2 多维氨基酸残基指数相关系数
  • 4.3 支持向量机分类算法
  • 4.4 实验结果与分析
  • 4.4.1 选取最优残基指数组合方式
  • 4.4.2 分类预测结果及分析比对
  • 4.5 本章小结
  • 第五章 结束语
  • 5.1 本文工作总结
  • 5.2 下一步工作展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    膜蛋白分类问题的特征提取算法研究
    下载Doc文档

    猜你喜欢