基于机器学习的多定位点蛋白质亚细胞定位预测方法研究

基于机器学习的多定位点蛋白质亚细胞定位预测方法研究

论文摘要

蛋白质的亚细胞定位信息对于推断蛋白质功能、了解细胞的生命活动、药物发现、以及疾病诊断等方面的研究具有重要的作用。近十年间蛋白质序列数量迅速增长,基于智能计算的蛋白质亚细胞定位预测方法已成为系统生物学和生物信息学等领域的一个研究热点。本论文应用机器学习方法对多定位点蛋白质亚细胞定位预测中的相关问题进行了研究,主要包括:1.提出了一种具有不平衡权重的多标签K近邻预测算法,以解决蛋白质数据分布不平衡的问题。该算法利用近邻点的统计信息估计待测样本关于亚细胞位置的后验概率,并根据训练集中各类样本的分布情况给出相应的不平衡权重,最后基于最大后验概率准则和不平衡权重来设计决策函数。在多个分布不平衡的蛋白质数据集上的数值实验结果表明,与两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell相比,该算法具有更好的预测精度,能够有效降低数据不平衡情况的负面影响。2.提出了一种基于非实验标注蛋白质信息挖掘的训练集构造方法,以解决蛋白质训练样本不足的问题。该方法引入非实验标注蛋白质,利用主动学习策略对这类数据进行评估,挑选出最有价值样本加入到原训练集中以构造出更具信息量的新训练集。多组数据集上的实验表明,INKNN、支持向量机、高斯过程和ML-RBF四种基础分类器的性能均能够得到提升,训练数据不足的情况得到了有效的改善。3.提出了一种基于蛋白质预鉴别的综合预测方法,以解决一个分类器同时预测单定位点蛋白质和多定位点蛋白质精度不高的问题。该方法基于直推学习技术对待测蛋白质的类型进行预鉴别,再对单定位点蛋白质和多定位点蛋白质使用独立的分类器分别进行预测。在多个数据集上进行实验,结果表明该方法能够有效地鉴别待测蛋白质的类型,其预测性能优于两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.1.1 蛋白质亚细胞定位概述
  • 1.1.2 基于机器学习的蛋白质亚细胞定位预测简介
  • 1.1.3 多定位点蛋白质亚细胞定位预测简介
  • 1.2 相关问题的研究现状
  • 1.2.1 蛋白质数据库简介
  • 1.2.2 蛋白质特征提取研究现状
  • 1.2.3 预测算法研究现状
  • 1.3 本文的主要工作和结构安排
  • 2 数据分布不平衡的多定位点蛋白质亚细胞定位预测
  • 2.1 引言
  • 2.2 研究背景
  • 2.2.1 数据不平衡问题简介
  • 2.2.2 不平衡数据学习研究现状
  • 2.3 预测算法
  • 2.3.1 基本思想
  • 2.3.2 算法实现
  • 2.3.3 不平衡参数
  • 2.4 数值实验
  • 2.4.1 数据集
  • 2.4.2 蛋白质特征表达
  • 2.4.3 实验结果
  • 2.5 本章小结
  • 3 基于非实验标注蛋白质信息挖掘的训练集构造方法
  • 3.1 引言
  • 3.2 研究背景
  • 3.2.1 问题概述
  • 3.2.2 非实验标注蛋白质简介
  • 3.2.3 主动学习简介
  • 3.3 主动选择算法
  • 3.3.1 基本思想
  • 3.3.2 评估函数
  • 3.3.3 算法实现
  • 3.3.4 确定样本选择比例
  • 3.4 数值实验
  • 3.4.1 实验材料
  • 3.4.2 实验方法
  • 3.4.3 评价准则
  • 3.4.4 实验结果
  • 3.5 本章小结
  • 4 基于蛋白质预鉴别的蛋白质亚细胞定位综合预测方法
  • 4.1 引言
  • 4.2 研究背景
  • 4.2.1 问题概述
  • 4.2.2 直推学习简介
  • 4.3 综合预测方法
  • 4.3.1 基本思想
  • 4.3.2 蛋白质鉴别算法
  • 4.3.3 闭环解
  • 4.4 数值实验
  • 4.4.1 数据集
  • 4.4.2 实验方法
  • 4.4.3 实验结果
  • 4.5 本章小结
  • 5 结论与展望
  • 5.1 总结
  • 5.2 展望
  • 创新点摘要
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 博士期间参加的科研项目
  • 致谢
  • 作者简介
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于机器学习的多定位点蛋白质亚细胞定位预测方法研究
    下载Doc文档

    猜你喜欢