多分类器集成系统在基因微阵列数据分析中的应用

多分类器集成系统在基因微阵列数据分析中的应用

论文摘要

多分类器集成系统是当前机器学习领域的一个研究热点。由于使用多个基分类器构建的集成系统通常比单个优秀的分类器具有更强的泛化能力,因此多分类器集成系统为许多基于传统模式识别方法很难解决的分类问题提供了新的解决方案。DNA微阵列技术是一种由物理学、微电子学与分子生物学等几个领域综合交叉形成的高新技术,该技术已经在医学与生物学上得到越来越广泛的应用,其中在癌症分析检测上的应用使得在大规模基因水平上深入研究癌症的发生、扩散等病理特征成为可能。特别地,进行可靠的癌症类型诊断与预测、癌症关键基因的识别和癌症的分类已成为当前癌症研究中的两项重要内容。尽管如此,由于微阵列数据具有数据维数高、样本数少的特点,因而使用常规的模式识别方法并不能总是获得理想的结果。本文主要针对多分类器集成系统在基因微阵列数据集上的应用进行了深入的分析与探讨,并设计了新的集成系统,以更好地解决微阵列数据的分类判别问题。全文的主要工作概括如下:(1)从机器学习的角度分析,癌症关键基因识别问题的核心是特征选择问题。本文集合filter方法,分别设计了基于标准遗传算法和多目标遗传算法的集成特征选择方法。实验中,首先使用filter方法对基因进行初步筛选,进而使用遗传算法进一步实现特征选择,然后将所选择的一组特征子集分别用于构造基分类器,以生成集成特征选择系统。实验结果表明,所设计的集成特征选择算法能有效地选择合适的基因子集,而且这种集成系统获得了良好的识别性能。(2)独立分量分析是一种近几年来新提出的线性变换方法,它已经成功地应用在微阵列数据分析上。本文借鉴了集成特征选择方法的思路,设计了集成独立分量选择系统。这种系统首先使用独立分量分析算法对微阵列数据进行线性变换,之后使用遗传算法选择合适的独立分量子集,并分别用于构建基分类器。由于使用这种方法能保证各个基分类器间的差异度,因此最后使用投票法将各个基分类器进行组合,即能构成稳健的集成系统。(3)在应用于微阵列数据分析中,通常独立分量分析算法得到的独立分量集并不总是可重复的。本文利用独立分量集之间的差异,提出一种新的构造集成系统的思路。这个集成系统基于多目标遗传算法,通过对独立分量分析变换后获得的不同独立分量集分别进行筛选,从各个不同的独立分量集中分别获得较优子集,用以构建基分类器。实验结果表明,使用这种方法,能够获得差异度更大的基分类器,因而最终的集成系统具有更优的性能。(4)旋转森林是一种新提出的多分类器集成系统,其特点在于使用线性变换方法生成旋转矩阵,使数据可以投影到不同坐标系中,从而构建有差异的分类器。由于这种系统要求数据集的特征维数不能过高,因此不能直接用在基因微阵列数据分析判别中。本文使用filter方法对基因微阵列数据进行降维,以获得适合旋转森林的数据集。此外,我们还引入独立分量分析技术作为一种新的产生旋转矩阵的方法。在两个常见数据集上的实验结果表明,旋转森林在基因微阵列数据判别中能获得较优的识别效果,并且基于独立分量分析的旋转森林能获得最佳的识别性能。(5)关键基因选择与癌症类别判别方法对处理多类癌症微阵列数据集往往比对两类癌症数据集更困难。其原因在于对多类问题,每类的样本数少,且往往各个类别样本数不均衡。本文设计了一种基于子集成系统的遗传规划,以同时实现特征选择和类别判定。首先,算法将多类问题分解为多个两类问题,然后,在遗传规划算法设计中,使用规模较小的集成系统(称为子集成系统)来分别处理各个两类问题,并将这些子集成系统融合起来,以构成一个个体。由于每个个体都包含一组子集成系统,因此它具有较强的泛化能力,且能直接处理多类判别问题。本文给出了基于特征的差异度测度,并使用局部优化算法来确保各个子集成系统的差异度,从而进一步提高系统运行的效率。实验结果表明,本文设计的算法能同时有效实现关键基因的选择与癌症类别的判定。

论文目录

  • 摘要
  • ABSTRACT
  • 插图目录
  • 表格目录
  • 第一章 绪论
  • 1.1 癌症微阵列数据分析的意义
  • 1.1.1 DNA微阵列简介
  • 1.1.2 DNA微阵列数据分析发展现状
  • 1.2 基于多分类器集成系统的微阵列数据分析
  • 1.3 本文的内容安排与创新点
  • 1.3.1 本文的内容安排
  • 1.3.2 本文主要创新点
  • 第二章 多分类器集成系统简介
  • 2.1 多分类器集成系统的研究历史
  • 2.2 多分类器集成系统成功的原因
  • 2.3 多分类器集成系统构建的一些常见方法
  • 2.3.1 基分类器的生成
  • 2.3.2 基分类器的选择
  • 2.3.3 分类器间的关系
  • 2.3.4 分类器输出的集成决策方法
  • 2.4 差异度测度
  • 2.4.1 常见的差异度测度
  • 2.4.2 差异度与精确度的关系
  • 2.4.3 差异度的可视化
  • 2.5 本章小结
  • 第三章 基于集成特征选择的基因微阵列数据分析
  • 3.1 特征选择方法简介
  • 3.1.1 基于filter的基因选择方法
  • 3.1.2 基于wrapper的基因选择方法
  • 3.2 集成特征选择方法
  • 3.3 遗传算法综述
  • 3.3.1 标准遗传算法简介
  • 3.3.2 多目标遗传算法简介
  • 3.3.3 遗传算法的特点
  • 3.4 基于标准遗传算法的集成特征选择算法设计
  • 3.4.1 染色体设计方案
  • 3.4.2 基分类器输出的融合
  • 3.4.3 实验结果与分析
  • 3.5 基于多目标遗传算法的集成特征选择算法设计
  • 3.5.1 染色体编码方式设计
  • 3.5.2 适应值函数的设计
  • 3.5.3 个体的集成方法
  • 3.5.4 实验结果与分析
  • 3.6 本章小结
  • 第四章 基于集成独立分量选择的基因微阵列数据分析
  • 4.1 独立分量分析在基因微阵列数据分析中的应用
  • 4.1.1 独立分量分析技术概述
  • 4.1.2 独立分量选择的必要性分析
  • 4.1.3 独立分量选择必要性的实验验证
  • 4.2 集成独立分量选择在基因微阵列数据分析中的应用
  • 4.2.1 基于进化计算的集成独立分量选择系统
  • 4.2.2 集成独立分量选择系统中遗传算法的设计
  • 4.2.3 实验结果与分析
  • 4.2.4 本节小结
  • 4.3 基于进化计算的扩展集成独立分量选择系统
  • 4.3.1 扩展独立分量选择系统设计方案
  • 4.3.2 多目标遗传算法的设计
  • 4.3.3 实验结果与相关讨论
  • 4.3.4 基分类器差异度与精确度的分析
  • 4.3.5 本节小结
  • 4.4 本章小结
  • 第五章 基于旋转森林的基因微阵列数据分析
  • 5.1 旋转森林简介
  • 5.1.1 基于决策树的集成系统
  • 5.1.2 旋转森林的算法框架
  • 5.2 降维方法
  • 5.3 实验与分析
  • 5.3.1 实验设定与结果分析
  • 5.3.2 基分类器差异度与精确度的分析
  • 5.4 本章小结
  • 第六章 基于遗传规划的多类基因微阵列数据分析
  • 6.1 遗传规划概述
  • 6.2 基于遗传规划的多类特征选择算法
  • 6.2.1 基于遗传规划的多类判别分析
  • 6.2.2 个体的结构
  • 6.2.3 个体的生成
  • 6.2.4 运算符与适应度函数的设计
  • 6.3 实验结果与分析
  • 6.3.1 实验设定
  • 6.3.2 实验结果与分析
  • 6.3.3 生物学意义分析
  • 6.4 本章小结
  • 总结与展望
  • 1 本文的主要工作与创新点
  • 2 进一步的工作展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    多分类器集成系统在基因微阵列数据分析中的应用
    下载Doc文档

    猜你喜欢