蛋白质亚细胞定位特征表达与分类算法研究

蛋白质亚细胞定位特征表达与分类算法研究

论文摘要

蛋白质组学是后基因组时代的一个重要研究方向,它试图诠释蛋白质在细胞中扮演的角色,揭示细胞环境中蛋白质之间的相互作用和及其功能。确定蛋白质的亚细胞定位是实现蛋白质功能注释的重要一环,但生物实验确定蛋白质亚细胞定位周期长,成本高,迫切需要发展新的更有效的方法。本文基于现代统计模式识别理论与方法,开展了亚细胞定位预测中的特征表达、分类算法、多类分类策略以及不均衡数据处理等问题的研究。主要贡献如下:1.提出了矩描述子特征表达方法,并从预测正确率、支持向量、训练和测试时间几个方面对基于支持向量机的三种多类分类策略的分类性能进行了研究。该特征表达方法从统计学角度分析了氨基酸组成成分特征,引入了氨基酸次序和位置信息,以氨基酸坐标均值和坐标方差来表示蛋白质序列中氨基酸出现位置的期望值和离散程度。基于两种典型数据库进行了实验数据验证,结果表明,矩描述子特征能更有效地表达出蛋白质序列中各种氨基酸残基的位置分布信息。2.提出了氨基酸组成分布特征表达方法,给出了不均衡性衡量指标,研究了不均衡数据集的不均衡性对支持向量机分类的影响,并提出了一种基于加权惩罚系数的训练方法。该特征表达方法将蛋白质序列平均分成多段,分别求取每一段子序列的氨基酸组成成分,不仅包含了所有子序列的氨基酸含量而且能够体现了子序列在空间结构上的相互作用关系。实验数据验证结果表明,(1)氨基酸组成成分特征体现了局部的子序列信息之和大于整体序列信息,能更有效地表达出蛋白质子序列之间的相互关系;(2)基于加权惩罚系数的训练方法能够来减轻数据的不均衡性给分类带来的负面影响。3.针对蛋白质物理化学信号的非平稳性,提出了基于氨基酸残基指数的多尺度能量特征表达方法。该特征表达方法利用氨基酸残基指数将蛋白质符号序列映射成数值信号,使用基于多分辨率分析思想的小波变换,将信号进行Mallat塔式分解,从而求解出该信号在多个尺度上的均方根能量,并通过向量的形式来表达亚细胞定位的特征信息。实验数据验证结果表明,本方法能更有效地表达出蛋白质物理化学信号的特性,并具有更小的计算复杂度。4.针对多种亚细胞定位特征之间的不一致性和特征维数高等问题,提出了一种基于多分类器系统的蛋白质亚细胞定位预测方法。该方法引入多分类器系统对多种特征进行聚合,融合了互补模式信息,降低单个分类器的不确定性,降低了高维特征带来的分类器模型构造难度,并减小了相应的计算负担。实验结果表明,与单个分类器相比,分类系统的预测能力得到了提高和改进;与其他方法相比,本方法更为有效和鲁棒。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 章节目录
  • 图目录
  • 表目录
  • 第1章 绪论
  • 1.1 引言
  • 1.1.1 生物信息学的定义
  • 1.1.2 生物信息学的研究与发展
  • 1.2 亚细胞定位概述
  • 1.3 亚细胞定位预测方法国内外研究现状
  • 1.3.1 特征表达
  • 1.3.2 分类
  • 1.3.3 评估
  • 1.4 存在问题及本文研究思路
  • 1.5 本文主要内容
  • 第2章 亚细胞定位预测基本计算方法
  • 2.1 引言
  • 2.2 数据库
  • 2.3 特征表达
  • 2.3.1 基于氨基酸组成成分的方法
  • 2.3.2 基于残基物理化学特性的方法
  • 2.3.3 组合方法
  • 2.4 支持向量机
  • 2.5 多分类器系统
  • 2.6 预测性能评估
  • 2.7 小结
  • 第3章 矩描述子特征及分类算法
  • 3.1 引言
  • 3.2 矩描述子特征表达方法
  • 3.3 基于矩描述子特征的多类分类策略
  • 3.3.1 一对多
  • 3.3.2 一对一
  • 3.3.3 有向无环图
  • 3.4 实验与分析
  • 3.4.1 预测结果分析
  • 3.4.2 特征表达方法对比
  • 3.4.3 多类分类策略对比
  • 3.5 小结
  • 第4章 氨基酸组成分布特征及分类算法
  • 4.1 引言
  • 4.2 氨基酸组成分布特征表达方法
  • 4.3 非均衡数据的惩罚系数权重选取研究
  • 4.4 实验与分析
  • 4.4.1 分段数目对分类精度的影响
  • 4.4.2 特征表达方法对比
  • 4.4.3 预测结果分析
  • 4.4.4 惩罚系数加权的预测结果对比
  • 4.5 小结
  • 第5章 基于氨基酸残基指数的多尺度能量特征
  • 5.1 引言
  • 5.2 多分辨率分析
  • 5.3 基于氨基酸残基指数的多尺度能量特征表达方法
  • 5.3.1 多尺度能量的定义
  • 5.3.2 多尺度能量特征表达方法
  • 5.4 实验与分析
  • 5.4.1 小波基和残基指数对分类的影响
  • 5.4.2 特征表达方法对比
  • 5.4.3 预测结果分析
  • 5.5 小结
  • 第6章 基于多分类器系统的蛋白质亚细胞定位预测方法
  • 6.1 引言
  • 6.2 亚细胞定位预测的多分类器系统设计
  • 6.3 基于多分类器选择算法的预测方法
  • 6.3.1 聚类选择算法
  • 6.3.2 局部精度动态选择算法
  • 6.4 基于多分类器融合规则的预测方法
  • 6.4.1 基本融合规则
  • 6.4.2 决策模板和D-S组合规则
  • 6.5 实验与分析
  • 6.5.1 组合规则对比
  • 6.5.2 预测结果分析
  • 6.5.3 预测方法对比
  • 6.6 小结
  • 第7章 总结与展望
  • 7.1 工作总结
  • 7.2 研究展望
  • 参考文献
  • 作者发表或录用的论文
  • 致谢
  • 相关论文文献

    • [1].基于Convolutional-LSTM的蛋白质亚细胞定位研究[J]. 计算机科学与探索 2019(06)
    • [2].用离散增量结合支持向量机方法预测蛋白质亚细胞定位[J]. 生物信息学 2010(03)
    • [3].Akt亚型的亚细胞定位决定了其特异的生物学作用[J]. 生理科学进展 2010(03)
    • [4].蛋白质亚细胞定位预测研究综述[J]. 计算机应用研究 2014(02)
    • [5].词袋模型在蛋白质亚细胞定位预测中的应用[J]. 食品与生物技术学报 2017(03)
    • [6].基于氨基酸约化和统计特征的蛋白质亚细胞定位预测[J]. 生物信息学 2015(02)
    • [7].一种根癌农杆菌介导的GFP亚细胞定位方法的优化[J]. 基因组学与应用生物学 2014(01)
    • [8].丹参转录因子SmGRAS3的克隆、亚细胞定位和表达分析[J]. 中国中药杂志 2019(22)
    • [9].番木瓜eIF4E家族蛋白的亚细胞定位[J]. 热带生物学报 2017(04)
    • [10].家蚕蛋白亚细胞定位预测模型的构建及其初步应用[J]. 浙江理工大学学报 2015(03)
    • [11].小麦TaGAPDH5基因的亚细胞定位和表达分析[J]. 农业科学研究 2019(01)
    • [12].一种新的蛋白质亚细胞定位预测方法[J]. 计算机工程与应用 2012(06)
    • [13].运用小波分析对蛋白质进行亚细胞定位预测(英文)[J]. 宁夏大学学报(自然科学版) 2008(03)
    • [14].蛋白质亚细胞定位预测中的序列编码技术研究[J]. 计算机科学 2012(S3)
    • [15].梭梭HaNAC1基因的亚细胞定位、转录激活及表达分析[J]. 分子植物育种 2019(04)
    • [16].水稻OsLecRK基因的亚细胞定位分析[J]. 湖北农业科学 2018(17)
    • [17].人钙周期素结合蛋白基因亚细胞定位载体的构建和鉴定[J]. 广东医学 2011(22)
    • [18].鸡importin β1基因真核表达载体的构建及亚细胞定位[J]. 中国家禽 2018(04)
    • [19].猪PKM2基因的序列分析与组织表达及亚细胞定位[J]. 湖南农业大学学报(自然科学版) 2019(01)
    • [20].丙型肝炎病毒核心蛋白反式激活基因2表达产物的亚细胞定位[J]. 中华实验和临床感染病杂志(电子版) 2010(01)
    • [21].白魔芋热激转录因子AaHSFA2a和AaHSFA2c的分离、亚细胞定位及表达分析[J]. 分子植物育种 2018(24)
    • [22].羊口疮024基因的表达、多抗制备及亚细胞定位[J]. 中国微生态学杂志 2018(10)
    • [23].EHV-1皮层蛋白VP22生物信息学分析及亚细胞定位研究[J]. 黑龙江畜牧兽医 2018(21)
    • [24].基于集成分类器的凋谢蛋白亚细胞定位预测方法[J]. 计算机与应用化学 2010(05)
    • [25].拟南芥细胞分裂素受体AHK3亚细胞定位信号的研究[J]. 华南农业大学学报 2017(06)
    • [26].基于三层集成多标记学习的蛋白质多亚细胞定位预测[J]. 计算机应用 2016(08)
    • [27].PCA方法在蛋白质亚细胞定位中应用[J]. 大连理工大学学报 2012(03)
    • [28].水稻OsUF的基序分析及其亚细胞定位[J]. 农业生物技术学报 2019(02)
    • [29].水稻OsNHX5基因的亚细胞定位及表达分析[J]. 热带生物学报 2019(02)
    • [30].苹果MdAFS基因亚细胞定位表达载体的构建及分析[J]. 山东农业大学学报(自然科学版) 2017(04)

    标签:;  ;  ;  ;  ;  ;  

    蛋白质亚细胞定位特征表达与分类算法研究
    下载Doc文档

    猜你喜欢