蛋白质分类问题的特征提取算法研究

蛋白质分类问题的特征提取算法研究

论文摘要

人类基因组计划的实施带来了蛋白质数据库中海量的序列信息,而对蛋白质高级结构和功能的认识却远远落后于序列信息。面对浩瀚的蛋白质序列数据,探索理论与计算的方法研究蛋白质结构和功能具有重要意义,也是后基因组时代生物信息学的核心问题之一。由于蛋白质结构和功能的复杂性,人们很难抓住其整体特征用简单的方法对所有蛋白质进行分类。而在蛋白质研究中存在许多专业分类方法,每一种分类准则在一定领域内都有很重要的实用价值。因此蛋白质分类问题作为蛋白质组学研究的一个分支,近年来受到研究者们越来越多的关注。蛋白质分类研究是全面掌握蛋白质结构与功能的前提和基础,在分子生物学、细胞生物学、药理学和医学中扮演着非常重要的角色。蛋白质序列的特征提取是基于计算的蛋白质分类研究中最为基本的问题,也是决定分类质量的关键问题。本文对此进行了深入的分析和研究,针对蛋白质分类研究中的四类基本问题,提出和实现了四种不同的特征提取算法,并在标准数据集上进行了测试验证和比较分析。本文的主要工作和创新之处概括如下:(1)蛋白质的结构型可以为蛋白质空间结构预测提供重要的信息。对于一个结构未知的蛋白质,如果能够准确地知道其结构型,不仅可以提高二级结构分类精度,而且能够大大缩小三级结构预测中构象搜索的范围。此外,结构型与蛋白质的某些功能也具有密切联系。本文基于离散量的概念构造了一种新的蛋白质序列特征提取算法——k -子串离散源方法。结合k -子串离散源和最小离散增量算法,构建了一种新的蛋白质结构型分类模型SS+Diver。该模型从蛋白质的序列出发,不需引入其它任何信息,计算简单、分类精度高。针对标准数据集T359,SS+Diver模型的Jackknife检验总体分类精度达到97.49%,比目前已有的分类模型提高了1.6756.27个百分点。实验结果表明,与已有分类模型相比,本文提出的SS+Diver模型具有较强的自适应、泛化和推广应用能力。(2)四级结构是蛋白质一级结构、二级结构和三级结构的延伸,是指寡聚蛋白质中亚基的种类、数目、空间排布以及亚基之间的相互作用。寡聚蛋白质广泛地参与物质代谢、信号传导、染色体复制等各种生命活动,对寡聚蛋白质四级结构的研究有着重要的生物学意义。本文提出了三种不同的组合特征提取算法,并采用最近邻居算法对二聚体与非二聚体蛋白以及七类同源寡聚体蛋白的分类问题进行了探讨。实验结果表明,三种组合特征提取算法中基于DPCACF的模型计算简单、分类性能好;针对标准数据集RG1639,该模型的Jackknife检验总体分类精度达到90.2%,比目前已有的分类模型提高了2.731.3个百分点;针对标准数据集CC3174,该模型的Jackknife检验总体分类精度达到91.18%,比目前已有的分类模型提高了12.68~22.78个百分点。(3)细胞凋亡蛋白质在生物体的生长发育和动态平衡中起重要作用,这些蛋白质对于了解细胞程序性死亡的机制非常重要。而细胞凋亡蛋白质的亚细胞定位与其在细胞中行使的功能有着密切的关系。本文基于“粗粒化”和“分组”的思想,提出了一种新的蛋白质序列特征提取算法——分组重量编码方法。并分别结合组分耦合算法、最近邻居算法和支持向量机构建了EBGW+CCA、EBGW+NNA和EBGW+SVM三个分类模型。实验结果表明,针对相同的数据集,采用相同的分类算法,分组重量编码方法综合考虑氨基酸的多种物理化学特性,能比氨基酸组成和非稳定性指标等特征提取算法更加有效地揭示出蕴含在字母序列中的结构与功能信息,且计算简单;在标准数据集上与现有的工作相比,本文提出的EBGW+SVM模型分类效果较好,总体分类精度、各类的敏感性和Matthews相关系数都有较大幅度的提高。(4)膜蛋白质在细胞中占有重要的地位。国际上已有成功的方法区分膜蛋白质与非膜蛋白质。如果人们能够从理论上预测膜蛋白质的类型及其与磷酸双脂层的结合方式,对于了解新测序的膜蛋白质的功能有十分重要的意义。本文引入亚字母集(sub-alphabet)的概念,并进一步提出了基于亚字母集的亚多肽组成特征提取算法。该方法不仅能够提取蛋白质序列中蕴含的细胞特征信息,有效改善分类模型的性能;而且大大降低计算复杂性,解决了传统多肽组成方法特征提取能力强,但是计算复杂、应用受限的现状。针对标准数据集CE2059,提出的基于AACS6P2的模型的总体分类精度比基于氨基酸组成和二肽组成组合方法的模型提高了0.1%,而运算时间仅为后者的11.75%。与已有的分类模型相比,该模型的总体分类精度提高了1.02~25.16个百分点。(5)最后,本文还对分类模型的分类性能与数据集特性之间的关系进行了初步探讨。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.2.1 基于结构型的分类
  • 1.2.2 基于四级结构的分类
  • 1.2.3 基于亚细胞定位的分类
  • 1.2.4 基于膜蛋白质的分类
  • 1.3 论文的主要工作与创新
  • 1.4 论文的结构
  • 第二章 蛋白质序列的特征提取和分类算法
  • 2.1 引言
  • 2.2 蛋白质序列的特征提取算法
  • 2.2.1 基于氨基酸组成和位置的特征提取算法
  • 2.2.2 基于氨基酸物理化学特性的特征提取算法
  • 2.2.3 基于数据库信息挖掘的特征提取算法
  • 2.2.4 其它特征提取算法
  • 2.2.5 蛋白质序列特征提取算法中存在的问题
  • 2.3 蛋白质分类算法
  • 2.3.1 基于统计的分类算法
  • 2.3.2 基于机器学习的算法
  • 2.3.3 其它算法
  • 2.4 分类模型构建的常用技术
  • 2.4.1 数据集的构建
  • 2.4.2 模型的检验
  • 2.4.3 模型的评估
  • 2.5 本章小结
  • 第三章 基于k-子串离散源算法的蛋白质结构型预测研究
  • 3.1 蛋白质结构型分类
  • 3.2 结构型预测的意义
  • 3.3 结构型预测的研究现状
  • 3.4 数据集
  • 3.5 生物信息论与最小离散增量算法
  • 3.5.1 信息与信息的度量
  • 3.5.2 离散量及其基本性质
  • 3.5.3 离散增量与最小离散增量预测算法
  • 3.6 k-子串离散源特征提取算法
  • 3.7 实验结果与分析
  • 3.7.1 k -子串长度对模型的影响
  • 3.7.2 Resubstitution 自检验分析
  • 3.7.3 Jackknife 交叉检验分析
  • 3.7.4 分类模型的推广应用分析
  • 3.7.5 子样本不均衡性和数据集大小对模型的影响
  • 3.7.6 序列同源性对分类模型的影响
  • 3.8 本章小结
  • 第四章 基于组合特征提取算法的蛋白质四级结构分类研究
  • 4.1 引言
  • 4.2 数据集
  • 4.3 最近邻居算法
  • 4.4 基于多肽组成组合特征提取算法的分类
  • 4.4.1 基于多肽组成的组合特征提取算法
  • 4.4.2 实验结果与分析
  • 4.5 基于随机信号量组合特征提取算法的分类
  • 4.5.1 基于随机信号量的组合特征提取算法
  • 4.5.2 实验结果与分析
  • 4.6 基于多肽组成和自相关函数组合特征提取算法的分类
  • 4.6.1 基于多肽组成和自相关函数的组合特征提取算法
  • 4.6.2 实验结果与分析
  • 4.7 三种组合特征提取算法的比较
  • 4.8 数据集特性对分类模型的影响
  • 4.9 本章小结
  • 第五章 基于分组重量编码的凋亡蛋白亚细胞定位预测研究
  • 5.1 亚细胞分类及功能
  • 5.2 亚细胞定位的意义
  • 5.3 基于序列信息的亚细胞定位预测研究现状
  • 5.4 凋亡蛋白定位预测的意义及现状
  • 5.5 数据集
  • 5.6 分组重量编码特征提取算法
  • 5.7 参数选择
  • 5.7.1 支持向量机的参数选择
  • 5.7.2 分组重量编码的参数选择
  • 5.8 实验结果与讨论分析
  • 5.9 与已有方法的比较分析
  • 5.9.1 特征提取算法比较分析
  • 5.9.2 分类模型比较分析
  • 5.10 本章小结
  • 第六章 基于亚多肽组成特征提取算法的膜蛋白分类研究
  • 6.1 引言
  • 6.2 数据集
  • 6.3 亚多肽组成
  • 6.4 实验结果与讨论分析
  • 6.5 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录A 结构型预测中标准数据集的预测结果
  • 附录B 本文采用的标准数据集名称和来源
  • 附录C 数据集ZW225 的序列登录号
  • 附录D 特征提取算法和分类模型的缩写说明
  • 相关论文文献

    • [1].基于大数据框架的开源情报特征提取算法[J]. 舰船电子工程 2020(09)
    • [2].一种图像边沿特征提取算法与路径识别系统[J]. 单片机与嵌入式系统应用 2020(01)
    • [3].一种基于结构化环境的线性距离特征提取算法[J]. 科学技术与工程 2020(06)
    • [4].基于全局-局部特征提取算法的信号分类系统(英文)[J]. Journal of Southeast University(English Edition) 2017(04)
    • [5].几种特征提取算法性能的评估[J]. 电子制作 2014(24)
    • [6].行文工整的甲骨拓片文字特征提取算法研究[J]. 计算机应用与软件 2014(06)
    • [7].一种改进的水果特征提取算法[J]. 计算机工程与应用 2013(06)
    • [8].基于发动机机械故障的诊断特征提取算法的研究[J]. 科技传播 2013(04)
    • [9].面向混沌时间序列预测的隐式特征提取算法[J]. 仪器仪表学报 2014(01)
    • [10].一种商标印刷缺陷特征提取算法的研究[J]. 制造业自动化 2014(18)
    • [11].鲁棒特征提取算法[J]. 计算机工程与设计 2013(09)
    • [12].人脸识别中基于熵的局部保持特征提取算法[J]. 现代电子技术 2012(14)
    • [13].基于雷达回波的特征提取算法研究[J]. 雷达与对抗 2011(01)
    • [14].一种云计算环境下海量数据安全特征提取算法[J]. 信息技术 2019(01)
    • [15].图像特征提取算法研究[J]. 电脑知识与技术 2017(15)
    • [16].一种面向混沌时间序列预测的虚拟特征提取算法[J]. 电子与信息学报 2014(10)
    • [17].基于二维判别局部排列的特征提取算法[J]. 计算机工程 2013(08)
    • [18].一种改进的正视图三维模型特征提取算法[J]. 四川理工学院学报(自然科学版) 2010(03)
    • [19].基于感兴趣区域的图像情感特征提取算法研究[J]. 太原科技大学学报 2009(06)
    • [20].无线电监测中调制信号特征提取算法[J]. 吉林大学学报(信息科学版) 2020(01)
    • [21].一种大数据背景下的图像特征提取算法[J]. 移动通信 2017(04)
    • [22].深层融合度量子空间学习稀疏特征提取算法[J]. 信号处理 2017(06)
    • [23].面向客户行为分析的特征提取算法对比研究[J]. 武汉职业技术学院学报 2016(05)
    • [24].基于时频混合特征提取算法的光纤传感信号识别研究[J]. 电子测量与仪器学报 2020(09)
    • [25].基于低秩表示的判别特征提取算法[J]. 福州大学学报(自然科学版) 2019(01)
    • [26].一种基于双层多样性的人体特征提取算法[J]. 计算机应用与软件 2015(12)
    • [27].高分辨率遥感影像圆特征提取算法研究[J]. 城市勘测 2016(05)
    • [28].核共空域子空间分解特征提取算法研究[J]. 中国生物医学工程学报 2012(03)
    • [29].在线评论中基于边界平均信息熵的产品特征提取算法[J]. 系统工程理论与实践 2016(09)
    • [30].一种战场声目标识别的多特征提取算法[J]. 安徽工业大学学报(自然科学版) 2017(02)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    蛋白质分类问题的特征提取算法研究
    下载Doc文档

    猜你喜欢