面向肿瘤检测的生物表达数据特征选择研究

面向肿瘤检测的生物表达数据特征选择研究

论文摘要

肿瘤是影响人类健康的主要疾病之一。基因微阵列和蛋白质质谱等技术的出现为人类疾病的诊断和防治开辟了新的途径。基于基因微阵列和蛋白质质谱等数据的肿瘤研究己成为生物信息学研究的热点,但由于其数据具有高维小样本等特点,常规模式识别方法已不再适用。目前已有一些研究取得了较好的模式分类率,但缺乏对临床生物学意义的关注。可以肯定的是利用越多的临床信息或生物先验知识能够更好的提高分类率,加强结果的生物相关性。在本研究中,基于卵巢癌磷脂代谢物数据和四个公共基因微阵列数据,不仅利用集成的模式识别方法,同时还根据样本临床诊断结果,辨识并选择与诊断相关的特征标志物。目前基于生物表达数据的特征识别方法主要有过滤法和缠绕法两大类方法。过滤法完全独立于分类器,分类精度不能得到保障,且过滤原则与类别信息无关;缠绕法与分类器相结合,能获得较高的分类精度,但不能保证结果与疾病有较强的相关性;另外,表达数据的高维、高噪声的特点更加增加了过拟合的风险。针对以上问题,本研究采取将过滤法和缠绕法相结合的策略,克服了单一使用缠绕法或过滤法的缺点,并避免过拟合现象的产生,保证较高分类率的同时不依赖于具体分类器,另一方面引入临床诊断结果使选择的生物标志物具有较强的肿瘤类别相关性。具体方法上:1)使用临床诊断结果相关的有监督奇异值分解,引入样本散点图和科尔莫诺夫-斯米尔诺夫检验,以辨识出含有样本类别信息的特征向量,克服传统奇异值分解按方差“贡献率”来提取特征向量的缺点,避免“丢弃”贡献率低但包含重要生物信息的特征向量。2)提出了基于相对重要性的随机森林决策理论,按照特征的相对重要性指标来选择关键特征,使用Gini指数和信息熵结合样本分类率来计算特征的相对重要性。在具体实验上,本研究选用卵巢癌磷脂代谢物数据和四个公共基因微阵列数据进行分析和数值实验,在自身陈述结果的基础上,与其他经典方法从分类性能和特征生物学关联意义等方面进行对比。实验结果表明:1)与经典方法和其他相关已发表算法相比,本方法在多个数据集上所选取的特征子集不仅具有较强的分类性能,而且对不同的分类算法有较好的适应性和稳定性,并不依赖于某个分类器; 2)通过文献检索和基因数据库查找显示,本研究所选取的特征磷脂代谢标志物和肿瘤特征基因具有较强的生物学关联意义,很多与相关的肿瘤疾病有关。综上,本方法能较好的选取出与疾病关联的特征标志物。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景与研究意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.2.1 生物表达数据的分析内容
  • 1.2.2 生物表达数据的分析研究现状
  • 1.3 论文主要内容与安排
  • 1.3.1 本文研究的主要内容
  • 1.3.2 论文组织结构
  • 第2章 数据与相关理论基础
  • 2.1 数据的获取
  • 2.2 数据预处理
  • 2.3 基于生物表达数据的特征选择算法
  • 2.3.1 T-test
  • 2.3.2 SVM-RFE
  • 2.3.3 奇异值分解理论
  • 2.3.4 随机森林
  • 2.4 评价指标
  • 2.4.1 科尔莫诺夫-斯米尔诺夫检验
  • 2.4.2 常用分类算法
  • 2.4.3 生物学意义相关解释
  • 2.5 本章小结
  • 第3章 基于卵巢癌磷脂代谢物数据的特征选择
  • 3.1 引言
  • 3.2 数据集
  • 3.3 实验方法与参数设定
  • 3.3.1 实验方法
  • 3.3.2 实验流程与参数设定
  • 3.4 实验结果与讨论
  • 3.4.1 辨识血清与血浆在特征选择中的区别
  • 3.4.2 特征标志物选取结果及分类率比较
  • 3.4.3 生物学关联意义解释
  • 3.5 本章小结
  • 第4章 基于基因微阵列数据的特征基因选择
  • 4.1 引言
  • 4.2 数据集
  • 4.3 实验方法与参数设定
  • 4.3.1 实验方法与流程
  • 4.3.2 实验参数设定
  • 4.4 实验结果与讨论
  • 4.4.1 基于临床相关的样本散点图
  • 4.4.2 特征基因的分类率讨论
  • 4.4.3 生物学关联意义解释
  • 4.5 本章小结
  • 第5章 总结与展望
  • 致谢
  • 参考文献
  • 附录
  • 一、结肠癌数据集的46 个特征基因
  • 二、白血病数据集的50 个特征基因
  • 三、前列腺癌数据集的前50 个特征基因
  • 四、神经胶质瘤数据集的前50 个特征基因
  • 作者硕士期间发表的学术论文及参加的科研项目
  • 一、发表的学术论文
  • 二、参加的科研项目
  • 详细摘要
  • 相关论文文献

    • [1].神经管畸形相关磷脂代谢的研究进展[J]. 国际生殖健康/计划生育杂志 2011(03)
    • [2].一种基于有监督奇异值分解和随机森林的卵巢癌磷脂代谢物特征提取方法[J]. 中国生物医学工程学报 2010(02)
    • [3].试论磷脂代谢的问题探究[J]. 生物技术世界 2016(01)
    • [4].磷脂生物代谢网络的对接重构计算[J]. 中南大学学报(医学版) 2014(06)
    • [5].四逆汤治疗甲状腺功能减退症的血清代谢组学研究[J]. 药学实践杂志 2016(03)
    • [6].非小细胞肺癌中脂质代谢的研究进展[J]. 中国药科大学学报 2020(01)
    • [7].采后苯并噻重氮处理对厚皮甜瓜细胞膜磷脂代谢的影响[J]. 食品科学 2018(15)
    • [8].黄芪散调节T2DM大鼠血浆磷脂代谢作用研究[J]. 亚太传统医药 2016(05)
    • [9].基于脂质代谢网络的虎杖抗呼吸道合胞病毒肺炎代谢组学研究[J]. 世界中医药 2016(09)
    • [10].叶酸的母胎保护作用[J]. 中国实用妇科与产科杂志 2013(12)
    • [11].液相色谱-质谱用于卵巢肿瘤中磷脂轮廓的分析[J]. 色谱 2011(09)
    • [12].荧光分析法检测金藻对Zn~(2+)的利用[J]. 食品研究与开发 2011(08)
    • [13].2016年《肿瘤代谢与营养电子杂志》第3卷第4期主要内容预告[J]. 肿瘤代谢与营养电子杂志 2016(03)

    标签:;  ;  ;  ;  

    面向肿瘤检测的生物表达数据特征选择研究
    下载Doc文档

    猜你喜欢