基于JEP的癌症分类算法研究

基于JEP的癌症分类算法研究

论文摘要

分类是数据挖掘和机器学习领域的一个重要问题,目的是通过训练数据集构建一个分类器来预测新的实例类别。近年来,DNA微阵列的发展为很多领域提供了一种高维数据,主要应用于癌症诊断和预测。跳跃显露模式(Jumping Emerging Pattern, JEP)是一种区分能力强的特殊模式,在分类方面有很明显的优越性。随着DNA微阵列和基因模式的快速发展,本文提出一种基于JEP的癌症分类算法。为了进一步提高癌症分类准确率,本文还研究了基于JEP癌症分类的组合分类算法,这在生物学、医学领域具有重要的研究价值和实际意义。本论文主要从基因表达数据的分析着手,其主要工作归纳如下:一、对基因表达数据进行预处理,DNA微阵列产生的数据具有高维性,有很多噪声,本文采用基于信息熵的离散化方法将连续属性离散化,依据最小长度原则找出基因的分割点,计算熵值,筛选出分类特征基因。熵值越小,特征基因分类能力越强。这种离散化方法可以有效消除噪声数据的影响。二、提出一种更具鉴别能力的基因模式,称为增强跳跃显露模式(IJEP),这种模式满足增长率趋近无穷大,且任何子集都不是IJEP的条件。提取IJEP的特征基因是通过基于信息熵的离散化方法获得,并在计算信息熵时,通过引入贝叶斯m-估计以克服小容量样本下频率等于概率的缺陷,从而提高熵的可靠度。三、用边界算法挖掘出有效的IJEP。用BORDER-DIFF算法获得不同的边界对,再用MBD-LLBORDDER算法产生IJEP。有效的缩短了IJEPs的挖掘时间。针对挖掘出的IJEP,提出一种癌症分类算法(CIJEP),同时通过改进相似度量的计算来提高预测的可信度。四、以基于IJEP的癌症分类器作为基分类器,将集成机器学习应用到癌症分类中,提出了Bag-CIJEP、Boost-CIJEP两种算法,在四个数据集上进行实验,实验结果提高了癌症的分类准确率。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景与意义
  • 1.2 研究内容
  • 1.3 本文组织安排
  • 1.4 小结
  • 第2章 相关研究知识
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘概念
  • 2.1.2 数据挖掘功能和方法
  • 2.2 DNA微阵列和基因表达数据
  • 2.2.1 DNA微阵列技术简介
  • 2.2.2 DNA微阵列技术应用
  • 2.2.3 基因表达数据的获取
  • 2.2.4 基因表达数据预处理
  • 2.3 癌症分类的研究
  • 2.3.1 癌症分类方法
  • 2.3.2 癌症分类评估
  • 2.4 集成学习
  • 2.4.1 基本概念
  • 2.4.2 Bagging
  • 2.4.3 Boosting
  • 2.5 显露模式EP
  • 2.5.1 EP的概况
  • 2.5.2 基于EP的分类算法
  • 2.6 小结
  • 第3章 基于IJEP的癌症分类算法
  • 3.1 增强跳跃显露模式(IJEP)
  • 3.1.1 基因表达数据的预处理
  • 3.1.2 IJEP的概念
  • 3.1.3 IJEP的挖掘
  • 3.2 基于IJEP的癌症分类算法
  • 3.2.1 IJEP的排序
  • 3.2.2 预测似然度的改进
  • 3.2.3 CIJEP算法
  • 3.2.4 实验结果分析
  • 3.3 小结
  • 第4章 基于CIJEP的组合分类算法
  • 4.1 BAG-CIJEP算法的提出
  • 4.1.1 Bag-CIJEP基本思想
  • 4.1.2 Bag-CIJEP算法描述
  • 4.2 BOOST-CIJEP算法的提出
  • 4.2.1 Boost-CIJEP基本思想
  • 4.2.2 Boost-CIJEP算法描述
  • 4.3 实验结果分析
  • 4.3.1 实验结果
  • 4.3.2 结果分析
  • 4.4 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 读研期间发表学术论文和参与科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于JEP的癌症分类算法研究
    下载Doc文档

    猜你喜欢