基于基因表达数据的样本分类研究

基于基因表达数据的样本分类研究

论文摘要

利用基因芯片技术可以同时对成千上万个基因的表达数据进行并行分析,从而产生了海量的有用数据,使用机器学习对这些大量的复杂数据进行分析是目前重要的研究领域之一。在这个研究领域里,基于基因表达数据的样本分类扮演着很重要的角色,它一般具有两个关键步骤:基因选择和分类模型设计。本文在研究样本分类过程的基础上,针对此种分类问题的特殊性以及已有方法存在的一些问题,提出了一些改进的方法。基因表达数据矩阵的最大特点是少量样本(一般不超过100)对应着很多的特征(几千甚至上万个基因),这给样本分类研究带来了巨大挑战。为了剔除与样本分类无关的基因以减少冗余、降低计算复杂度和提高分类准确度,基因选择是进行样本分类前必不可少的一步。本文先按照相关性系数标准对样本所包含的全体基因进行筛选,降低冗余的同时有利于缩小优化算法的搜索范围;然后在筛选结果上采用蚁群优化策略进行分类相关基因子集的选择,并利用样本聚类效果作为优化目标函数,保证分类准确度的同时大大降低了基因选择方法的计算复杂度。实验结果表明,本文提出的基因选择方法能在相当短的时间内选出与分类相关的基因子集。基于基因表达数据的样本分类属于数据挖掘中的分类任务,它最重要的性能指标就是它对样本分类的准确度。本文在属性识别理论的基础上,利用统计原理设计了一个分类系统。同时,为了克服单分类器分类准确度相对不高等特点,把这个分类系统与传统的KNN分类器结合起来,形成一个新的样本分类方法。在癌症数据集上的实验显示,新的方法具有较好的分类效果,并且时间复杂度较低。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 基因芯片
  • 1.2 机器学习
  • 1.2.1 学习系统的基本结构
  • 1.2.2 学习的主要策略
  • 1.2.3 机器学习的分类
  • 1.3 本文研究意义
  • 1.4 本文的主要工作及结构
  • 第2章 基于基因表达数据的样本分类概述
  • 2.1 基于基因表达数据的样本分类模型
  • 2.2 基因数据预处理
  • 2.3 分类特征基因选择
  • 2.3.1 排列法
  • 2.3.2 包装法
  • 2.4 几个经典的分类算法
  • 2.4.1 Naive Bayes
  • 2.4.2 KNN
  • 2.4.3 SVM
  • 2.5 分类效果的评价方法
  • 2.5.1 LOOCV
  • 2.5.2 ROC curves
  • 2.6 小结
  • 第3章 基于筛选-优化的基因选择方法
  • 3.1 引言
  • 3.2 相似性距离
  • 3.3 最相关子集
  • 3.4 优化策略
  • 3.4.1 蚁群算法原理
  • 3.4.2 TSP 问题的蚁群算法原型
  • 3.5 基于筛选-优化的基因选择
  • 3.5.1 算法说明
  • 3.5.2 算法描述
  • 3.6 实验分析
  • 3.6.1 参数分析
  • 3.6.2 对比实验
  • 3.7 小结
  • 第4章 基于属性识别理论的样本分类
  • 4.1 引言
  • 4.2 属性识别理论
  • 4.2.1 属性集和属性测度
  • 4.2.2 属性集和属性测度与模糊集之间的区别
  • 4.2.3 一种属性识别方法
  • 4.3 基于属性识别理论的样本分类
  • 4.3.1 单基因属性测度分析
  • 4.3.2 多基因综合属性测度分析
  • 4.3.3 识别系统
  • 4.4 算法描述
  • 4.4.1 特征基因选择及权值计算
  • 4.4.2 属性识别与KNN 结合的分类器
  • 4.5 实验分析
  • 4.5.1 结肠癌数据分类
  • 4.5.2 乳腺癌数据分类
  • 4.6 小结
  • 总结与展望
  • 1 本文工作总结
  • 2 研究展望
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文目录
  • 附录B 攻读学位期间参加的项目
  • 相关论文文献

    • [1].基于阿尔茨海默病的基因表达数据改进的一维聚类方法[J]. 四川师范大学学报(自然科学版) 2015(04)
    • [2].多步骤决策树方法在基因表达数据上的应用研究[J]. 中国卫生统计 2017(01)
    • [3].基于大脑不同区域的阿尔茨海默症基因表达数据分析[J]. 上海交通大学学报 2013(06)
    • [4].癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报(自然科学版) 2010(02)
    • [5].蛋白质网络和基因表达数据与癌症转移的预测[J]. 国际药学研究杂志 2008(02)
    • [6].基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J]. 中国海洋大学学报(自然科学版) 2013(12)
    • [7].基于非负矩阵分解的大脑不同区域基因表达数据分析[J]. 中国生物医学工程学报 2012(06)
    • [8].浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J]. 科技资讯 2011(33)
    • [9].两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类的比较研究[J]. 中国卫生统计 2009(05)
    • [10].基于层级规则树的跨平台基因表达数据分类[J]. 计算机工程 2019(07)
    • [11].基因表达数据横向荟萃分析方法综述[J]. 数理统计与管理 2018(02)
    • [12].基于矩阵分解技术的显著基因提取及基因表达数据分析[J]. 生物医学工程学杂志 2014(03)
    • [13].基因表达数据分析中的特征基因提取[J]. 微计算机信息 2008(09)
    • [14].免疫聚类算法在基因表达数据分析中的应用[J]. 北京邮电大学学报 2010(02)
    • [15].基因表达数据在数据库中的预处理[J]. 电脑知识与技术 2009(16)
    • [16].基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版) 2018(03)
    • [17].基于稀疏极大边界特征的癌症基因表达数据分析[J]. 郑州师范教育 2012(04)
    • [18].基于DE-CStacking集成的基因表达数据分类算法[J]. 小型微型计算机系统 2019(08)
    • [19].从肿瘤基因表达数据挖掘分类规则的研究[J]. 中国生物医学工程学报 2009(05)
    • [20].微阵列基因表达数据的选择及方法[J]. 现代交际 2015(08)
    • [21].基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J]. 计算机应用 2018(05)
    • [22].基因表达数据分类算法及应用探讨[J]. 洛阳理工学院学报(自然科学版) 2014(03)
    • [23].PSO和Cholesky分解的KELM的基因表达数据分类[J]. 中国计量学院学报 2016(02)
    • [24].基于压缩感知的癌症基因表达数据分类[J]. 中国计量学院学报 2012(01)
    • [25].应用于癌症基因表达数据的OMB双向聚类算法[J]. 计算机工程与应用 2011(28)
    • [26].从基因表达数据中挖掘最大的行常量双聚类[J]. 计算机应用研究 2011(12)
    • [27].小波包分解和模糊聚类下的基因表达数据分析[J]. 计算机工程与应用 2009(19)
    • [28].基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J]. 中国科学技术大学学报 2009(08)
    • [29].基于基因表达数据的双聚类分析研究[J]. 河南科技 2018(34)
    • [30].基因表达数据中的局部模式挖掘研究综述[J]. 计算机研究与发展 2018(11)

    标签:;  ;  ;  ;  ;  

    基于基因表达数据的样本分类研究
    下载Doc文档

    猜你喜欢