微阵列基因表达数据分类问题中的属性选择技术研究

微阵列基因表达数据分类问题中的属性选择技术研究

论文摘要

近年来,随着微阵列技术的快速发展,人们可以在一次实验中同时测量成千上万个基因的表达水平(通过微阵列技术获得的基因表达数据称为微阵列基因表达数据)。这种高通量的技术为基因表达数据的收集提供了方便,同时也给基因表达数据的挖掘提出了严峻的挑战。分类是微阵列基因表达数据挖掘的一个重要任务,其目的是根据微阵列基因表达数据对疾病进行分类和诊断,它与传统的分类过程没有区别。然而,微阵列基因表达数据的分类任务更具有挑战性,因为基因数目庞大而样本数目很少。因此,从微阵列基因表达数据的成千上万个基因中识别一少部分对分类任务最有贡献的基因(属性)非常必要。论文借鉴现有的属性选择技术和方法,并基于微阵列基因表达数据的特点,对微阵列基因表达数据上的属性选择问题进行了深入的研究。在属性选择研究领域,属性相关性是个非常重要的概念,它反映属性对分类任务的重要性。很多属性选择算法直接基于属性相关性概念,并采用这样或那样的相关性度量来评估属性子集的优劣。虽然,属性相关性这个概念在属性选择领域广泛使用,但是,至今仍然没有大家公认的属性相关性定义,相关性度量也很多样化,属性相关性及其与属性选择之间的关系仍然没有得到充分刻画和描述。论文集中于研究属性相关性、更适用于微阵列基因表达数据的属性相关性度量和属性选择方法。属性相关性度量用来度量属性(属性子集)与类标号之间的相关性。在机器学习和数据挖掘领域存在许多不同的属性相关性度量,不同的度量适合于不同的数据。现有相关性度量中,有些度量适合于有大量样本、且样本服从典型统计分布的数据;有些适合于离散数据。而微阵列基因表达数据不仅样本非常少,而且数据都是连续值,不能满足现有度量的要求。针对这个问题,论文根据灰色系统理论能处理“小样本”和连续值数据的特点,将灰色系统理论中的灰关联分析用于微阵列基因表达数据,用灰关联度量来评估属性相关性,并基于此开发了一个基于灰关联分析的属性选择排列法GR-GRA。属性相关性在属性选择中是一个非常重要的概念。在机器学习和数据挖掘领域存在很多属性相关性定义,但这些定义大都是定性的,往往仅仅依赖于数据的概率分布,既不考虑相关性度量,也独立于分类器。这样的定义往往会导致一些问题:由于不同的相关性度量基于不同的理论、具有不同的特点,不考虑相关性度量的定义会导致这样的问题:同一个属性,用一个度量评估时是相关属性,而用另外一个度量评估时可能变为不相关属性,我们无法确定一个属性究竟是相关的,还是不相关的。针对现有定义存在的问题,我们提出依赖于度量的相关性定义,该定义将属性相关性度量包含在其中,用属性相关性度量值的变化来近似地刻画属性的相关性。在这个定义的基础上,我们开发了一个非常有效的属性选择过滤算法FRADM,并将其用于微阵列基因表达数据。广泛的实验证明了FRADM在微阵列基因表达数据上的优越性能。很多研究表明独立于分类器的属性相关性定义几乎没有什么用处:根据这样的定义所选择的相关属性不一定就是对分类有用的属性,而不相关的属性也未必都对分类没有作用;并且不同的分类器有不同的偏置,对一个分类器重要的属性对另外一个分类器可能是无用的。为此,我们提出依赖于分类器的属性相关性定义,该定义考虑了分类器的偏置,直接用分类器精度的变化来精确地刻画属性的相关性。基于这个定义我们开发了一个有效的属性选择打包算法WR。微阵列基因表达数据上的大量实验证明WR算法能在最大程度上提高分类器的精度。论文最后将依赖于度量的属性相关性定义和依赖于分类器的属性相关性定义进行了统一和抽象,形成一个广义的属性相关性定义;根据广义属性相关性定义,将属性选择过滤算法FRADM和打包算法WR统一在一个属性选择算法框架下;在此基础上分析了统一框架下过滤算法FRADM和打包算法WR各自的优缺点,并提出一个新颖的混合策略,在新的混合策略下,实现了一个新颖的混合属性选择算法HFW。总体而言,本文对于属性选择中的属性相关性及相关性度量进行了深入研究,给出了几个属性相关性定义,提出了适用于微阵列基因表达数据的属性相关性度量,并针对微阵列基因表达数据,开发了几个有效的属性选择算法。对于推进高维数据中的属性选择研究具有一定的理论意义和实用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 微阵列基因表达数据研究概述
  • 1.1.1 微阵列基因表达数据的获取和特点
  • 1.1.2 微阵列基因表达数据的主要应用和挖掘类型
  • 1.1.3 研究现状
  • 1.2 微阵列基因表达数据上的分类问题
  • 1.2.1 分类过程和常用方法
  • 1.2.2 分类法准确率的评估
  • 1.3 微阵列基因表达数据属性选择的研究意义和面临的挑战
  • 1.4 论文的主要工作和结构
  • 1.4.1 论文的主要工作
  • 1.4.2 论文的组织结构
  • 第二章 相关研究及实验数据集
  • 2.1 属性选择研究概述
  • 2.1.1 属性选择的一般过程
  • 2.1.2 属性选择算法的分类
  • 2.1.3 属性选择的应用
  • 2.2 微阵列基因表达数据上己有的属性选择方法
  • 2.3 属性相关性及相关性度量
  • 2.3.1 属性相关性
  • 2.3.2 相关性度量
  • 2.4 实验数据集
  • 2.5 小结
  • 第三章 基于灰关联分析的属性相关性度量
  • 3.1 引言
  • 3.2 灰色系统理论及灰关联分析
  • 3.2.1 灰色系统理论概述
  • 3.2.2 灰色关联分析
  • 3.2.3 灰关联分析的应用实例
  • 3.3 应用灰关联分析进行基因选择
  • 3.4 性能分析与比较
  • 3.4.1 实验配置和步骤
  • 3.4.2 实验结果及分析
  • 3.5 小结
  • 第四章 依赖于度量的属性相关性及属性选择算法
  • 4.1 引言
  • 4.2 依赖于度量的属性相关性
  • 4.2.1 已有定义的不足
  • 4.2.2 依赖于度量的属性相关性
  • 4.3 属性选择过滤算法FRADM
  • 4.3.1 强正相关属性的识别
  • 4.3.2 弱正相关属性的识别
  • 4.3.3 过滤算法FRADM
  • 4.4 性能分析与比较
  • 4.4.1 实验配置和步骤
  • 4.4.2 FRADM与几个经典算法的运行时间和选择基因数的比较
  • 4.4.3 FRADM和几个经典算法对C4.5精度影响的比较
  • 4.4.4 FRADM和几个经典算法对NaiveBayes精度影响的比较
  • 4.5 小结
  • 第五章 依赖于分类器的属性相关性及属性选择算法
  • 5.1 引言
  • 5.2 依赖于分类器的属性相关性
  • 5.3 属性选择打包算法 WR
  • 5.4 性能分析与比较
  • 5.4.1 WR与几个经典算法的运行时间和选择基因数的比较
  • 5.4.2 WR与几个经典算法对C4.5精度影响的比较
  • 5.4.3 WR与几个经典算法对NaiveBayes精度影响的比较
  • 5.5 小结
  • 第六章 广义属性相关性及混合属性选择算法
  • 6.1 广义的属性相关性
  • 6.2 统一的属性选择算法框架
  • 6.3 属性选择混合算法HFW
  • 6.3.1 传统混合策略及问题
  • 6.3.2 新的混合策略及混合算法HFW
  • 6.4 性能分析与比较
  • 6.4.1 HFW与几个经典属性选择算法的比较
  • 6.4.2 HFW与FRADM及WR的性能比较
  • 6.5 小结
  • 第七章 结束语
  • 7.1 论文工作的总结
  • 7.2 课题研究展望
  • 致谢
  • 攻读博士学位期间撰写的主要论文
  • 攻读博士学位期间参加的主要科研工作
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于阿尔茨海默病的基因表达数据改进的一维聚类方法[J]. 四川师范大学学报(自然科学版) 2015(04)
    • [2].多步骤决策树方法在基因表达数据上的应用研究[J]. 中国卫生统计 2017(01)
    • [3].基于大脑不同区域的阿尔茨海默症基因表达数据分析[J]. 上海交通大学学报 2013(06)
    • [4].癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报(自然科学版) 2010(02)
    • [5].蛋白质网络和基因表达数据与癌症转移的预测[J]. 国际药学研究杂志 2008(02)
    • [6].基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J]. 中国海洋大学学报(自然科学版) 2013(12)
    • [7].基于非负矩阵分解的大脑不同区域基因表达数据分析[J]. 中国生物医学工程学报 2012(06)
    • [8].浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J]. 科技资讯 2011(33)
    • [9].两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类的比较研究[J]. 中国卫生统计 2009(05)
    • [10].基于层级规则树的跨平台基因表达数据分类[J]. 计算机工程 2019(07)
    • [11].基因表达数据横向荟萃分析方法综述[J]. 数理统计与管理 2018(02)
    • [12].基于矩阵分解技术的显著基因提取及基因表达数据分析[J]. 生物医学工程学杂志 2014(03)
    • [13].基因表达数据分析中的特征基因提取[J]. 微计算机信息 2008(09)
    • [14].免疫聚类算法在基因表达数据分析中的应用[J]. 北京邮电大学学报 2010(02)
    • [15].基因表达数据在数据库中的预处理[J]. 电脑知识与技术 2009(16)
    • [16].基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版) 2018(03)
    • [17].基于稀疏极大边界特征的癌症基因表达数据分析[J]. 郑州师范教育 2012(04)
    • [18].基于DE-CStacking集成的基因表达数据分类算法[J]. 小型微型计算机系统 2019(08)
    • [19].从肿瘤基因表达数据挖掘分类规则的研究[J]. 中国生物医学工程学报 2009(05)
    • [20].微阵列基因表达数据的选择及方法[J]. 现代交际 2015(08)
    • [21].基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J]. 计算机应用 2018(05)
    • [22].基因表达数据分类算法及应用探讨[J]. 洛阳理工学院学报(自然科学版) 2014(03)
    • [23].PSO和Cholesky分解的KELM的基因表达数据分类[J]. 中国计量学院学报 2016(02)
    • [24].基于压缩感知的癌症基因表达数据分类[J]. 中国计量学院学报 2012(01)
    • [25].应用于癌症基因表达数据的OMB双向聚类算法[J]. 计算机工程与应用 2011(28)
    • [26].从基因表达数据中挖掘最大的行常量双聚类[J]. 计算机应用研究 2011(12)
    • [27].小波包分解和模糊聚类下的基因表达数据分析[J]. 计算机工程与应用 2009(19)
    • [28].基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J]. 中国科学技术大学学报 2009(08)
    • [29].基于基因表达数据的双聚类分析研究[J]. 河南科技 2018(34)
    • [30].基因表达数据中的局部模式挖掘研究综述[J]. 计算机研究与发展 2018(11)

    标签:;  ;  ;  ;  ;  

    微阵列基因表达数据分类问题中的属性选择技术研究
    下载Doc文档

    猜你喜欢