基于特征选择的多变量数据分析方法及其在谱学研究中的应用

基于特征选择的多变量数据分析方法及其在谱学研究中的应用

论文摘要

特征选择是多变量数据分析中一个重要的研究方面,通过特征选择可以剔除无关、冗余的信息,降低数据维数及算法的复杂度,提高模型的推广能力及可理解性,因而在数据分析中起着很重要的作用。本文以蛋白质组学质谱数据以及近红外光谱数据为研究对象,进行了高维数据特征变量选择方法的研究。对蛋白质组学质谱数据的分析目的是进行潜在生物标记物的探寻及疾病和健康样本的模式识别;对近红外光谱数据的研究目的是通过变量筛选消除数据共线性的影响,从而建立稳定、高效的多元校正模型。本文研究工作主要包括以下几个方面:(1)提出了一种基于非相关线性判别分析的演进式特征选择方法,该方法包括数据降噪及标准化、数据分箱及箱变量筛选、箱数据处理、非相关线性判别分析用于特征筛选及样本分类等四个步骤。通过对卵巢癌血清样本SELDI-TOF质谱数据的分析筛选得到了可用于识别卵巢癌样本的潜在生物标记物,并建立了分类模型,得到了100%的灵敏度和特异性。(2)提出了一种独立成分分析结合非相关线性判别分析的特征选择方法。该方法包括三个步骤:1)独立成分分解;2)非参数统计检验用于判别独立成分的选择;3)非相关线性判别分析用于潜在生物标记物的筛选及分类模型的建立。用本方法对一组结肠癌数据集和一组卵巢癌数据集分别进行了分析,最终筛选出的特征所建立的分类模型在两组数据上的灵敏度均为100%,特异性分别为100%和96.77%。(3)建立了一种基于F-score与偏最小二乘—判别分析的特征选择方法,首先通过预处理,提取出质谱信号中的峰值,然后按F-score值大小对变量的可分类性排序,最后以PLS-DA逐步有放回地筛选出潜在的生物标记物。对结肠癌和卵巢癌数据集进行了分析,最终得到的特异性分别为100%和96.77%,灵敏度分别为95.24%和100%。(4)提出了一种基于蒙特卡罗采样技术的递归偏最小二乘方法,该方法采用蒙特卡罗采样技术建立多个数据子集,并利用PLS分别对每个子集多次建模,以回归系数为变量筛选依据选出多个优变量子集,通过统计分析确定最终的最佳变量集。用此方法对几个不同的近红外光谱数据集进行分析,并与不同方法进行了比较,结果表明该方法可有效地进行近红外光谱的变量筛选。(5)提出了一种基于光谱纯度值的变量选择方法,用于近红外光谱定量建模中的波长选择。对光谱中各变量计算其纯度值后,按降序将相应变量排列,采用PLS交互检验通过依次考察变量对模型的贡献逐步选择最佳变量。用此方法对几个不同的近红外光谱数据集进行变量筛选,结果表明此方法简单、有效。

论文目录

  • 摘要
  • Abstract
  • 第一章 综述
  • 1.1 多变量数据分析中的特征选择问题
  • 1.2 蛋白质组学质谱数据分析中的化学计量学方法
  • 1.2.1 质谱数据预处理
  • 1.2.2 特征选择
  • 1.2.3 分类方法
  • 1.3 近红外光谱分析中的化学计量学方法
  • 1.3.1 光谱预处理技术
  • 1.3.2 多元校正建模
  • 1.3.3 模型精度
  • 1.3.4 近红外光谱的变量选择
  • 1.4 本文的主要研究内容
  • 第二章 本论文相关的几种多变量数据分析方法及原理
  • 2.1 主成分分析及其扩展方法
  • 2.1.1 主成分分析的基本算法
  • 2.1.2 主成分分析算法的几种扩展
  • 2.2 偏最小二乘法及其扩展方法
  • 2.2.1 偏最小二乘法的基本算法
  • 2.2.2 偏最小二乘法的扩展方法
  • 2.3 非相关线性判别分析
  • 2.4 独立成分分析
  • 2.4.1 独立成分分析基本模型
  • 2.4.2 数据的预处理
  • 2.4.3 ICA的估计原理和估计方法
  • 2.4.4 扩展独立成分分析
  • 2.4.5 独立成分分析的若干应用
  • 第三章 基于ULDA的演进式特征选择方法及其在蛋白质组学质谱数据分析中的应用
  • 3.1 概述
  • 3.2 基于非相关线性判别分析的演进式特征选择方法原理
  • 3.2.1 χ2算法(CHI2 algorithm)
  • 3.2.2 非相关线性判别分析(ULDA)
  • 3.2.3 基于ULDA的演进式特征选择方法(ULDA-HFS)
  • 3.3 ULDA-HFS用于蛋白质组学质谱数据的生物标记物探寻及样本分类
  • 3.3.1 数据集
  • 3.3.2 数据处理
  • 3.4 结果与讨论
  • 3.4.1 χ2用于变量箱的选择
  • 3.4.2 ULDA用于样本分类和变量选择
  • 3.4.3 结果评价
  • 3.5 本章小结
  • 第四章 ICA-ULDA算法及其在蛋白质组学质谱数据分析中的应用
  • 4.1 引言
  • 4.2 ICA—ULDA算法
  • 4.2.1 ICA基本理论
  • 4.2.2 ICA用于蛋白质组学质谱数据的特征提取
  • 4.2.3 ULDA
  • 4.2.4 数据分析方法步骤
  • 4.3 数据集
  • 4.4 结果与讨论
  • 4.4.1 数据集A:结肠癌数据集
  • 4.4.2 数据集B:卵巢癌数据集
  • 4.5 本章小结
  • 第五章 基于F-score和偏最小二乘判别分析的特征选择方法及其在蛋白质组学质谱数据分析中的应用
  • 5.1 引言
  • 5.2 方法及数据集
  • 5.2.1 基于F-score与偏最小二乘判别分析的分类特征选择方法原理
  • 5.2.2 数据预处理
  • 5.2.3 偏最小二乘判别分析
  • 5.2.4 F-score
  • 5.2.5 数据集
  • 5.3 结果讨论
  • 5.3.1 数据预处理
  • 5.3.2 数据集A
  • 5.3.3 数据集B
  • 5.4 本章小结
  • 第六章 蒙特卡罗采样—递归偏最小二乘法用于近红外光谱分析的波长选择
  • 6.1 引言
  • 6.2 方法
  • 6.2.1 蒙特卡罗采样
  • 6.2.2 子集中变量的选择
  • 6.2.3 最佳变量集的确定
  • 6.3 数据集
  • 6.3.1 玉米样品近红外光谱数据
  • 6.3.2 生物样品近红外光谱数据
  • 6.3.3 烟草样品近红外光谱数据
  • 6.4 结果与讨论
  • 6.4.1 蒙特卡罗采样次数的影响
  • 6.4.2 根据EDF进行变量的逐步剔除
  • 6.4.3 玉米湿度(corn moisture)数据分析
  • 6.4.4 玉米蛋白质(corn protein)数据分析
  • 6.4.5 人血清白蛋白(HSA)数据分析
  • 6.4.6 人血清γ-球蛋白(γ-globulin)数据分析
  • 6.4.7 烟草尼古丁(tobacco nicotine)数据分析
  • 6.5 本章小结
  • 第七章 基于变量纯度的波长选择方法在近红外光谱分析中的应用
  • 7.1 引言
  • 7.2 方法
  • 7.3 数据集
  • 7.3.1 三组分体系近红外光谱数据集
  • 7.3.2 烟草样品近红外光谱数据集
  • 7.4 结果与讨论
  • 7.4.1 三组分体系近红外光谱数据集
  • 7.4.2 烟草样本近红外光谱数据集
  • 7.5 本章小结
  • 全文总结
  • 参考文献
  • 攻读学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    • [1].基于随机森林特征选择的森林类型分类[J]. 北京测绘 2019(12)
    • [2].特征选择稳定性研究综述[J]. 软件学报 2018(09)
    • [3].基于成对约束分的特征选择及稳定性评价[J]. 计算机与数字工程 2019(06)
    • [4].基于样本邻域保持的代价敏感特征选择[J]. 数据采集与处理 2018(02)
    • [5].基于特征聚类集成技术的在线特征选择[J]. 计算机应用 2017(03)
    • [6].一种基于特征选择的入侵检测方法[J]. 吉林大学学报(理学版) 2015(01)
    • [7].基于支持向量机及特征选择的单通道脑电波睡眠分期研究[J]. 生物医学工程学杂志 2015(03)
    • [8].一种快速的特征选择框架和方法[J]. 北京邮电大学学报 2019(03)
    • [9].特征选择研究综述[J]. 信息与电脑(理论版) 2017(24)
    • [10].基于自适应显著特征选择的动态加权平均行人识别模型[J]. 计算机工程与科学 2017(05)
    • [11].基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版) 2016(04)
    • [12].基于重采样与特征选择的不均衡数据分类算法[J]. 小型微型计算机系统 2020(06)
    • [13].基于条件相关的特征选择方法[J]. 吉林大学学报(工学版) 2018(03)
    • [14].基于局部特征选择的微博中文文本分类研究[J]. 现代计算机(专业版) 2017(23)
    • [15].改进枢轴特征选择的跨领域情感分类[J]. 计算机工程与设计 2020(11)
    • [16].基于独立特征选择和局部保持投影的故障诊断[J]. 机械设计与研究 2020(03)
    • [17].基于有效距离的迭代特征选择[J]. 小型微型计算机系统 2017(05)
    • [18].一种基于嵌入式特征选择的垃圾邮件过滤模型[J]. 小型微型计算机系统 2009(08)
    • [19].多准则融合在数据特征选择中的应用[J]. 控制工程 2018(06)
    • [20].入侵检测中特征选择技术的应用[J]. 计算机时代 2018(09)
    • [21].生物特征身份识别中的特征选择与先进的识别算法[J]. 北京邮电大学学报 2009(02)
    • [22].基于已选特征动态变化的非线性特征选择方法[J]. 吉林大学学报(工学版) 2019(04)
    • [23].中文文本特征选择方法研究综述[J]. 工业控制计算机 2017(11)
    • [24].基于特征选择和深度信念网络的文本情感分类算法[J]. 计算机应用 2019(07)
    • [25].基于l_(1,2)惩罚典型相关分析的特征选择[J]. 计算机应用与软件 2019(10)
    • [26].基于分治排序策略的流量二次特征选择[J]. 电子学报 2017(01)
    • [27].基于大学生思想特征选择开展群体活动的路径[J]. 科学大众(科学教育) 2012(03)
    • [28].一种基于Z-score的微博文本情感分类方法[J]. 信息与电脑(理论版) 2018(06)
    • [29].多模场景下的高维数据的特征选择及分类研究[J]. 信息技术 2018(07)
    • [30].基于XGBoost特征选择的幕课翘课指数建立及应用[J]. 电子科技大学学报 2018(06)

    标签:;  ;  ;  ;  ;  

    基于特征选择的多变量数据分析方法及其在谱学研究中的应用
    下载Doc文档

    猜你喜欢