半消极学习及其在生物信息学中的应用

半消极学习及其在生物信息学中的应用

论文摘要

近年来,随着计算机技术的高速发展,人们越来越多地以计算机为辅助工具对生物信息进行存储、检索、网络化、处理、分析、导航和可视化,从而产生了一个新兴的前沿交叉学科一一生物信息学。由于人类基因组计划的完成和后基因组时代的到来,人们拥有了可供研究的海量的生物信息。在获得了如此海量的信息后,如何对这些信息进行分析解读并挖掘出其中的有用知识,这成为了一个十分具有挑战性的研究课题。随着生物信息学的高速发展,DNA微阵列技术已经使得我们能够在重要的生物过程和相关的样本集合中,同时监测成千上万个基因的表达水平。同时,如何理解和解释随之而产生的众多数据,也对我们提出了巨大的挑战。使用机器学习的方法来分析生物信息学中的复杂数据,这是目前重要的研究领域之一。本文旨在研究的是诸多问题中的一个热点问题:基于基因表达数据的癌症分类问题。与癌症相关的基因表达数据大都有着样本少而基因个数却很大的特点。因此,研究者首先须从成千上万的基因中,挑选出对癌症分类有鉴别意义或有着相关性基因来,此工作尤为重要。继此之后,再进行分类方法的训练与预测。在本论文中,先使用偏最小二乘法,对癌症数据集进行降维,再对降低维度之后的数据集用CRN (Classifying Categorical Data by Rule-based Neighbors)算法进行分类。CRN算法是一种非度量和参数自由的分类器,它也可以视作一种基于规则归纳和实例学习的混合算法。最后将CRN算法应用在2种不同的癌症基因表达数据集白血病和结肠癌的数据集中,实验结果证明该方法的分类准确率相较于其他现有的方法非常具有竞争力。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.1.1 生物信息学概述
  • 1.1.2 生物数据的特点
  • 1.1.3 DNA 微阵列应用于癌症分类
  • 1.2 国内外的研究现状
  • 1.3 论文的组织和安排
  • 第二章 生物数据的获取与分类介绍
  • 2.1 生物数据的获取
  • 2.2 数据预处理
  • 2.2.1 缺失数据修补
  • 2.2.2 数据的转换
  • 2.2.3 数据归一化
  • 2.3 特征基因选择
  • 2.3.1 过滤法
  • 2.3.2 融合法
  • 2.4 基因表达数据中的常用分类算法
  • 2.4.1 KNN 分类算法
  • 2.4.2 人工神经网络
  • 2.4.3 随机森林算法
  • 2.4.4 支持向量机(SVM)
  • 2.5 本章小结
  • 第三章 特征基因的选取与分类器设计
  • 3.1 特征基因的选取
  • 3.1.1 主成分分析 (PCA) 简介
  • 3.1.2 偏最小二乘法 (PLS) 原理
  • 3.2 分类器设计
  • 3.2.1 积极学习和消极学习
  • 3.2.2 CRN 算法
  • 3.3 本章小结
  • 第四章 实验结果及分析
  • 4.1 实验数据来源
  • 4.2 使用 PLS 进行基因选择的实验结果
  • 4.3 实验结果的评价标准
  • 4.4 CRN 分类的实验结果及分析
  • 4.5 生物学意义分析
  • 4.6 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  

    半消极学习及其在生物信息学中的应用
    下载Doc文档

    猜你喜欢