对液相质谱数据集的数据降维

对液相质谱数据集的数据降维

论文摘要

本文主要描述了在一个具有极高维度的液相质谱型宫颈癌数据集中进行数据挖掘的过程。此项目的目的是通过对具有区分一种特定疾病状态,即患癌或非患癌的对应于生物标记的某种蛋白质或肽的发掘来降低数据集的维度。数据降维的两种主要方法——特征选择和特征提取在本项目中都得到利用。我们既整合了一些经典的特征选择算法,又采用了一些较新的算法,比如像CLaNC,OnebyOne,T检验,Gram-Schmidt等,同时也尝试了几乎所有的特征提取算法,包括主成分分析,Autoencoder network等等。最近邻分类法和交叉验证被分别用作分类器和生成训练样本集和测试样本集的数据分割法。大多数的算法都是在MatLab的平台下编程实现的,我们还引入了WEKA作为补充工具。实验是在两种方法学的指导下进行的,即特征选择分别位于交叉验证之前和之后。在分析和对比了由各种算法产生的结果之后,我们能够得出如下结论:尽管对于患癌症者或非患癌者的区分上,GroupI中第391个特征并不是具有0分类错误率的完美

论文目录

  • 提要
  • 第一章 维数灾难
  • 1.1 维数灾难
  • 1.2 维数灾难的解决
  • 第二章 特征选择与特征提取
  • 2.1 特征选择
  • 2.1.1 CLaNC 算法描述
  • 2.1.2 One-By-One 算法描述
  • 2.1.3 T 检验算法描述
  • 2.1.4 Gram-Schmidt 算法描述
  • 2.1.4.1 经典Gram-Schmidt 算法描述.
  • 2.1.4.2 随机特征Gram-Schmidt 算法描述
  • 2.2 特征提取
  • 2.2.1 主成分分析算法描述
  • 2.2.2 Autoencoder network 算法描述
  • 2.3 K 最近邻分类器
  • 2.4 交叉验证
  • 第三章 生物标记的发掘
  • 第四章 液相质谱宫颈癌数据集
  • 4.1 液相质谱分析法
  • 4.1.1 高效液相色谱
  • 4.1.2 质谱分析
  • 4.1.3 高效液相色谱与质谱分析的接口
  • 4.2 液相质谱数据的处理
  • 4.3 宫颈癌数据集
  • 第五章 数据降维实验
  • 5.1 利用WEKA 进行数据降维
  • 5.1.1 数据准备-ARFF
  • 5.1.2 属性选择
  • 5.2 利用MATLAB 进行数据降维
  • 5.2.1 CLaNC 算法实现
  • 5.2.2 One-By-One 算法实现
  • byone1 算法实现'>5.2.2.1 Onebyone1 算法实现
  • byone2 算法实现'>5.2.2.2 Onebyone2 算法实现
  • 5.2.3 T 检验算法实现
  • 5.2.3.1 经典t 检验算法实现
  • 5.2.3.2 配对t 检验算法实现
  • 5.2.4 Gram-Schmidt 算法实现
  • 5.2.4.1 经典Gram-Schmidt 算法实现.
  • 5.2.4.2 随机特征Gram-Schmidt 算法实现
  • 5.2.5 性能比较
  • 5.3 利用MATLAB 工具箱进行数据降维.
  • 5.4 利用改进的方法学进行数据降维
  • 5.4.1 利用WEKA 和改进后的方法学对数据进行降维
  • 5.4.2 利用MatLab 和改进后的方法学对数据进行降维
  • 第六章 结论
  • 附录一 宫颈癌数据集SOP 1
  • 附录二 宫颈癌数据集SOP 2
  • 附录三 MATLAB 工具箱“DRTOOLBOX”(V0.3b)
  • 摘要
  • ABSTRACT
  • 致谢
  • ACKNOWLEDGEMENTS
  • 参考文献
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  ;  ;  ;  

    对液相质谱数据集的数据降维
    下载Doc文档

    猜你喜欢