基因表达数据分类算法及其应用研究

基因表达数据分类算法及其应用研究

论文摘要

使用机器学习方法分析生物信息学中的复杂数据是目前重要的研究领域之一。通过微阵列测试技术得到的基因表达数据可以表现任何给定条件下的基因表达模式,它们可以帮助我们深入地认识诸多生物过程的本质,如基因功能、癌症(肿瘤)、衰老和药理等。本文主要研究基于基因表达数据的肿瘤分类和基因功能分类方法,并针对已有的算法与模型当中所存在的问题,提出对算法的改进。 针对基于基因表达数据的肿瘤分类,本文从分类算法和特征基因选择两个方面进行了改进。在分析了传统的SVM算法和kNN算法的基础上,本文将两者结合成为一种新的应用于肿瘤分类的算法。该算法将SVM视为每类只取一个代表点的1NN分类器,在对测试数据进行分类时,依据测试样本与超平面之间的距离决定采用何种分类算法。实验结果表明新算法的分类准确率较传统的SVM算法和kNN算法有所提高。针对基因表达数据集具有“样本数目少,基因数目庞大”的特点,本文通过特征基因选择提高分类精度。本文提出了一种改进的基于相关性的递归特征消除方法(简称为C-RFE)。新方法通过计算基因间的相关性,在寻求数据最小冗余的同时,考虑了如何避免过度删除与目标表现型相关的基因。实验证明,使用新方法选择特征基因子集可大幅度提高分类性能,特征选择效率也较高。 对于基于基因表达数据的基因功能分类,根据功能类的隶属关系,本文给出了基于功能树的置信度调整和基于功能树的优势因子决策两个准则。依据这两个准则,本文提出了一种改进的基于基因功能树的基因功能分类算法。新算法在测试阶段可自动检测出某一基因在某个功能节点上被忽略或偏高的功能置信度,然后根据基于功能树的置信度调整准则对其进行调整;而功能树优势因子决策准则的引入则可使算法摆脱Fixed-size预测的局限,它利用优势因子分别定出每个分类器的判决门槛值,从而直接判定某个基因是否具备某节点功能。实验结果表明,该算法基因功能预测的精确率和召回率较传统算法有所提高。

论文目录

  • 摘要
  • ABSTRACT
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 生物信息学与机器学习
  • 1.2 基因表达数据分类概述
  • 1.2.1 基于基因表达数据的肿瘤分类
  • 1.2.2 特征基因的选择
  • 1.2.3 基因表达数据的功能类
  • 1.3 本文所做的主要工作
  • 第2章 常用分类算法性能研究
  • 2.1 引言
  • 2.2 几种分类算法的研究
  • 2.2.1 支持向量机
  • 2.2.2 Naive Bayes算法
  • 2.2.3 kNN算法
  • 2.3 三种算法的性能评价
  • 2.4 小结
  • 第3章 基于SVM-KNN算法的肿瘤分类
  • 3.1 引言
  • 3.2 SVM-kNN分类算法
  • 3.3 实验及分析
  • 3.3.1 实现SVM-kNN分类算法
  • 3.3.2 实验结果与讨论
  • 3.4 小结
  • 第4章 特征基因选择算法研究
  • 4.1 引言
  • 4.2 相关工作
  • 4.2.1 S2N算法
  • 4.2.2 RFE算法
  • 4.2.3 ALMA算法
  • 4.3 基于相关性的RFE算法
  • 4.3.1 特征基因的相关性
  • 4.3.2 算法描述
  • 4.4 实验结果及分析
  • 4.5 小结
  • 第5章 基因表达数据的功能分类
  • 5.1 引言
  • 5.2 相关工作
  • 5.2.1 MIPS数据集
  • 5.2.2 基因功能分类算法及Fixed-size预测
  • 5.2.3 实验比较研究
  • 5.3 基于功能树的功能分类定义
  • 5.3.1 基因功能树的定义和标记
  • 5.3.2 基于功能树的置信度调整算法(tCAA)
  • 5.3.3 基于功能树的优势因子决策算法(tDA)
  • 5.4 基于功能树的功能分类算法
  • 5.4.1 子算法描述
  • 5.4.2 基于功能树的功能分类算法
  • 5.5 实验及分析
  • 5.5.1 基于功能树置信度调整算法的SVM分类
  • 5.5.2 基于功能树的功能分类
  • 5.6 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文
  • 相关论文文献

    • [1].大数据挖掘中的数据分类算法技术研究[J]. 电子技术与软件工程 2015(14)
    • [2].基于粒度空间的最小生成树分类算法[J]. 南京大学学报(自然科学) 2017(05)
    • [3].一种心律失常分类算法[J]. 电子世界 2020(04)
    • [4].数据挖掘中数据分类算法的比较分析[J]. 吉林师范大学学报(自然科学版) 2008(04)
    • [5].数据挖掘分类算法研究综述[J]. 中国高新技术企业 2008(24)
    • [6].包分类算法研究综述[J]. 计算机工程 2015(12)
    • [7].传统图像分类与深度学习分类算法比较研究[J]. 荆楚理工学院学报 2020(02)
    • [8].Titanic生存问题常见分类算法对比分析[J]. 电子世界 2017(22)
    • [9].基于贝叶斯理论的分类算法研究[J]. 计算机光盘软件与应用 2014(16)
    • [10].数据挖掘中分类算法综述[J]. 重庆师范大学学报(自然科学版) 2011(04)
    • [11].基于多层感知器神经网络的智能分类算法[J]. 通信电源技术 2020(05)
    • [12].百科实例的分类算法探究[J]. 科技创新与应用 2015(13)
    • [13].一种快速的五元一维包分类算法[J]. 电脑知识与技术 2009(36)
    • [14].因素空间理论下基点分类算法研究[J]. 智能系统学报 2020(03)
    • [15].低代价的数据流分类算法[J]. 计算机系统应用 2016(12)
    • [16].云环境下的信息分类算法研究[J]. 太原师范学院学报(自然科学版) 2015(04)
    • [17].基于距离的粒计算分类算法[J]. 信阳师范学院学报(自然科学版) 2015(02)
    • [18].快速流分类算法的研究[J]. 数字通信 2010(01)
    • [19].基于基因表达式编程的代价敏感分类算法[J]. 吉林大学学报(信息科学版) 2009(04)
    • [20].集成学习之随机森林分类算法的研究与应用[J]. 电脑知识与技术 2020(21)
    • [21].基于组合分类算法的源代码注释质量评估方法[J]. 计算机应用 2016(12)
    • [22].社交地点分类算法设计与实现[J]. 现代计算机(专业版) 2017(20)
    • [23].关于数据挖掘中的数据分类算法的综述[J]. 电子制作 2014(13)
    • [24].稀有类分类算法的研究[J]. 电脑开发与应用 2010(09)
    • [25].基于K近邻分类算法的敏感信息过滤方法研究[J]. 科学技术创新 2020(28)
    • [26].大数据处理中分类算法的数值比较[J]. 数学的实践与认识 2019(13)
    • [27].一种改进的并行K_近邻网络舆情分类算法研究[J]. 微电子学与计算机 2015(06)
    • [28].基于分布式数据流的大数据分类算法[J]. 饮食科学 2019(04)
    • [29].基于聚类核的半监督情感分类算法研究[J]. 计算机技术与发展 2016(12)
    • [30].基于多传感器数据融合的目标分类算法[J]. 航天电子对抗 2013(04)

    标签:;  ;  ;  ;  

    基因表达数据分类算法及其应用研究
    下载Doc文档

    猜你喜欢