质谱代谢数据中特征选择算法的研究与应用

质谱代谢数据中特征选择算法的研究与应用

论文摘要

作为系统生物学的重要组成部分,代谢组学在生命活动的研究之中越发受到广泛的关注。代谢组学以生命活动的最终产物为研究对象,能够直观的反映机体对于外界环境因素(如感染、用药、手术)以及自身因素(疾病、老化)所造成的代谢活动的变化,可以用于机体生命活动异常的诊断与治疗。由于生物数据通常都具有很高的维度、包含大量的噪音特征,从高维数据中提取出能够反映问题本质的关键信息成为代谢组学研究的瓶颈。数据挖掘技术通过对数据进行建模,能够把握数据自身的特征,有助于对数据的解释与分析。特征选择算法能够发现高维数据中最能够体现样本分布的特征集合,为了能够对代谢组学数据进行合理的解释并从数据中找出关键的代谢成分,特征选择是十分必要的。分布估计算法(Estimation of Distribution Algorithms, EDAs)是一类以概率模型为基础的进化算法,由于其突出的问题优化能力与模型的解释能力,近年来这类算法也受到了广泛的关注。本文通过对分布估计算法(Estimation of Distribution Algorithms, EDAs)在特征选择问题中的研究与应用,给出了一种约束了算法中候选解容量的特征选择算法L-EDA。在L-EDA算法中,候选解的容量被约束为一个比较小的数目,突显出对于解决所处理问题表现优异的候选解。同时基于算法每一轮筛选出的优秀候选解的集合,本文给出了一种以全局基准来衡量各个因素优劣的概率向量更新策略,使得模型的更新更为准确,能够发现与问题最为相关的因素。本文的另一主要内容是给出了一种基于后向特征删除策略的两阶段特征选择方法F-SVM,方法先通过将方差分析(Analysis of Variance, ANOVA)中特征对应的F值与支持向量机(Support Vector Machine, SVM)模型中特征的权重相结合的方式,过滤掉数据中的噪音特征;在此基础之上,方法利用支持向量机进一步迭代的对剩下的特征进行进一步的建模与评价,选出数据中最具区分能力的特征集合。在对于卵巢癌复发非复发数据的处理过程中,相对于传统的分布估计算法以及遗传算法,L-EDA算法有效的排除了数据中手术与用药治疗等因素的干扰,找出了5种能够体现卵巢癌病征的代谢成分,可以用于辅助临床的诊断与治疗。在利用对肝病代谢组学数据的处理之中,F-SVM方法发现了数据中22种不同类别之间最具差异的特征,能够为肝病的临床诊断提供依据。在实验中,本文利用K折特征选择模型对F-SVM从高维数据中发现关键特征与进行样本区分的能力进行了验证。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 代谢组学背景介绍
  • 1.1.1 代谢组学的概念及特点
  • 1.1.2 代谢组学的分析技术
  • 1.1.3 代谢组学的应用
  • 1.2 代谢组学数据分析与生物信息学
  • 1.3 本文主要工作
  • 2 生物信息学数据处理与分析技术
  • 2.1 统计分析
  • 2.1.1 t检验
  • 2.1.2 Wilcoxon秩和检验
  • 2.2 聚类分析
  • 2.3 分类方法
  • 2.3.1 K近邻分类
  • 2.3.2 AdaBoost
  • 2.3.3 随机森林
  • 2.3.4 支持向量机
  • 2.4 数据降维方法
  • 2.4.1 特征提取
  • 2.4.2 特征选择
  • 2.5 本章小结
  • 3 L-EDA算法
  • 3.1 分布估计算法理论及分类
  • 3.1.1 分布估计算法理论
  • 3.1.2 分布估计算法分类
  • 3.2 分布估计算法在生物信息处理中的应用
  • 3.3 一种改进的分布估计算法L-EDA
  • 3.3.1 分布估计算法用于特征选择
  • 3.3.2 分布估计算法个体评价准则
  • 3.3.3 分布估计算法概率模型史新准则
  • 3.3.4 L-EDA算法
  • 3.4 实验与结果
  • 3.4.1 实验数据背景
  • 3.4.2 主成分分析与偏最小二乘判别分析
  • 3.4.3 L-EDA对卵巢癌数据的处理与分析
  • 3.4.4 卵巢癌潜在代谢标志物的筛选
  • 3.4.5 L-EDA与传统的分布估计算法、遗传算法之间的比较
  • 3.5 本章小结
  • 4 一种两阶段的特征选择方法F-SVM
  • 4.1 基于支持向量机的特征性选择算法
  • 4.2 F-SVM特征选择算法
  • 4.2.1 方差分析
  • 4.2.2 特征评价
  • 4.2.3 F-SVM算法
  • 4.3 F-SVM在肝病代谢数据处理中的应用
  • 4.3.1 实验数据背景
  • 4.3.2 基于F-SVM的数据处理模型
  • 4.3.3 肝病潜在代谢标记物的筛选
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].基于指数损失间隔的多标记特征选择算法[J]. 计算机技术与发展 2020(04)
    • [2].基于?_(2,1)范数的在线流特征选择算法[J]. 计算机与数字工程 2019(06)
    • [3].森林优化特征选择算法的增强与扩展[J]. 软件学报 2020(05)
    • [4].基于自步学习的半监督特征选择算法研究[J]. 电脑知识与技术 2020(15)
    • [5].基于图的特征选择算法综述[J]. 安徽大学学报(自然科学版) 2017(01)
    • [6].面向高维微阵列数据的集成特征选择算法[J]. 计算机工程与科学 2016(07)
    • [7].基于支持向量机的特征选择算法综述[J]. 信息工程大学学报 2014(01)
    • [8].一种改进的文本分类特征选择算法[J]. 微电子学与计算机 2011(12)
    • [9].基于邻域交互增益信息的多标记流特征选择算法[J]. 南京大学学报(自然科学) 2020(01)
    • [10].大数据中基于稀疏投影的在线特征选择算法[J]. 湖南科技大学学报(自然科学版) 2018(03)
    • [11].一种改进的动态流特征选择算法[J]. 计算机工程与应用 2012(18)
    • [12].特征选择算法研究综述[J]. 安徽广播电视大学学报 2019(04)
    • [13].多标记特征选择算法的综述[J]. 郑州大学学报(理学版) 2020(04)
    • [14].一种改进的类别区分词特征选择算法[J]. 计算机与现代化 2019(03)
    • [15].特征选择算法及应用综述[J]. 办公自动化 2018(21)
    • [16].海量高维数据下分布式特征选择算法的研究与应用[J]. 科技通报 2013(08)
    • [17].全局调距和声特征选择算法[J]. 计算机工程与应用 2019(02)
    • [18].基于标记权重的多标记特征选择算法[J]. 计算机科学 2017(10)
    • [19].多标记不完备数据的特征选择算法[J]. 计算机科学与探索 2019(10)
    • [20].一种基于支持向量数据描述的特征选择算法[J]. 智能系统学报 2015(02)
    • [21].基于多视角学习和注意力的特征选择算法[J]. 北京交通大学学报 2020(05)
    • [22].基于XGBoost的特征选择算法[J]. 通信学报 2019(10)
    • [23].用于轴承表面缺陷分类的特征选择算法[J]. 轴承 2018(01)
    • [24].基于森林优化特征选择算法的改进研究[J]. 软件学报 2018(09)
    • [25].面向代价敏感的多标记不完备数据特征选择算法[J]. 小型微型计算机系统 2018(12)
    • [26].一种基于谱理论的并行特征选择算法[J]. 计算机应用与软件 2010(11)
    • [27].改进的特征选择算法[J]. 计算机工程与设计 2008(22)
    • [28].基于分割策略的特征选择算法[J]. 计算机科学 2018(10)
    • [29].基于拉普拉斯评分的多标记特征选择算法[J]. 计算机应用 2018(11)
    • [30].基于特征关联的多标记谱特征选择算法[J]. 闽南师范大学学报(自然科学版) 2017(02)

    标签:;  ;  ;  ;  

    质谱代谢数据中特征选择算法的研究与应用
    下载Doc文档

    猜你喜欢