基于基因表达数据的肿瘤亚型多类别分类与分析

基于基因表达数据的肿瘤亚型多类别分类与分析

论文摘要

肿瘤是人类面临的一大灾难,任何有关肿瘤的检测、诊断和治疗的研究,毫无疑问都具有重要的意义。不同肿瘤亚型具有不同的特征,从基因水平上观测,它们分别由单种或多种基因表达及其相互作用所控制,具有不同的基因表达特征,但它们往往难于用临床特征进行区分。基因芯片技术的出现,为科学家在分子水平上研究肿瘤现象提供了一个强有力的工具,比如可以用来研究正常组织与肿瘤组织的区别。基于基因表达数据的肿瘤亚型多类别分类与分析,正是试图从基因水平上对不同的肿瘤或亚型进行分类和分型。由于基因芯片表达数据具有高维、高噪音、高相关性等特点,使得基于基因芯片表达数据的模式分类问题仍然面临许多困难。例如,检测基因的数目相对于样本的数目非常大,其中大量与疾病组织样本无关的基因的表达不仅降低分类器的性能,还会增加机器学习的时间和空间复杂度。本文围绕着这些问题,充分利用已有的基因表达数据,从基因水平上研究对肿瘤多类别进行分类的方法,主要开展了以下两方面有新意的研究工作:1.特征基因选择方法的研究用特征选择的方法对基因进行筛选来剔除无关基因,减少基因指标的个数,不仅可以提高分类器的性能,而且还为寻找对疾病有鉴别力的特征基因排除了大量无关基因的干扰,因此选择出来的特征基因可以更有效地用来对疾病进行诊断。一个较优的算法选择出的特征基因子集,不仅应该对疾病类别有较强的鉴别力,还应该对不同的分类器算法具有较强的鲁棒性。从这个原则出发,本文提出了一种基于标准差分布差异(Standard Deviation Error Distribution,SDED)的特征基因选择算法。该算法基于一个直观的假设:即特征基因表达水平在不同类间和相同类内具有不同的概率分布,类间标准差相对较大,而类内标准差则尽可能小。结合基因在类内和类间表达标准差分布差异情况,即可对基因进行打分,从而选择出具有生物学意义及有利于分类判别的特征基因。通过对比GS2和CHO算法对4个不同白血病基因表达数据集进行的实验分类结果,表明SDED算法能选择出有利于分类预测结果的特征基因,预测精度分别比GS2和CHO算法高出0.8-4.2%和1.6-8.4%。同时通过统计所选特征基因在OMIM和KEGG两大数据库中的注释情况,说明SDED算法可以选择出的具有重要生物学意义的肿瘤相关特征基因的数量,要比这两种算法高出4.0%和6.1%左右。2.肿瘤亚型多类别分类方法研究利用支持向量机、人工神经网络和决策树等模式分类方法对基因表达数据进行疾病及疾病亚型的识别已取得了一定的成果。对于双类别的研究已取得很好的进展,但在多类别分类问题上,存在预测精度不高,实验效率不够理想,所选特征基因生物学意义不明显等问题。针对多类别分类问题,主要有两种策略:一种是将多类别问题分解为双类别,该类型算法的主要弊端是随着类别数的增加,分类器的数目指数增长,计算量也因此大大增加。第二种类型的分类器则可以自然的扩展到多类别分类问题,如判别式方法。判别式是基于数据标准正态分布的假设,其数学计算并不复杂,但主要针对线性关系的问题。针对判别式方法的局限性以及基因表达数据噪声强,波动大,在大量数据的背后还有很多相关变量不能被直接观测到等特点,本文提出了一种基于简单高斯混合模型(Simple Gaussian Mixture Model,SGMM)的多类别判别方法,该方法结合了判别式算法以及高斯混合模型的优点,从而保留了更多有利多类别分类的信息。通过用4个不同的白血病基因表达数据集进行测试,并用留一法交叉验证得到的分类结果表明.利用简单高斯混合模型的分类器,能够取得比最近邻算法高2%左右的预测精度,同时与支持向量机的分类效果相当,但其计算复杂度和运算量却远低于支持向量机。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 生物信息学概述
  • 1.1.1 生物信息学的定义
  • 1.1.2 生物信息学中常用的信息科学技术和方法
  • 1.1.3 生物信息学的热点研究方向
  • 1.2 基因芯片技术与肿瘤分子研究
  • 1.3 本文主要内容
  • 1.3.1 研究内容和意义
  • 1.3.2 关键问题和技术路线
  • 1.3.3 各章节主要内容
  • 第2章 基因芯片与肿瘤研究
  • 2.1 基因芯片
  • 2.1.1 基因
  • 2.1.2 基因芯片
  • 2.1.3 基因芯片技术
  • 2.1.4 基因芯片技术的应用
  • 2.2 肿瘤研究
  • 2.2.1 肿瘤
  • 2.2.2 肿瘤的产生
  • 2.2.3 肿瘤的分类
  • 2.2.4 肿瘤的治疗
  • 2.2.5 肿瘤的预防
  • 2.3 基因芯片与肿瘤研究
  • 2.3.1 肿瘤基因表达谱分析
  • 2.3.2 肿瘤分子分类、分型和预后
  • 2.3.3 肿瘤相关基因检查
  • 2.3.4 抗肿瘤药物的筛选
  • 第3章 特征基因选择算法
  • 3.1 研究意义和现状
  • 3.2 数据、数据预处理和评价指标
  • 3.2.1 数据
  • 3.2.2 数据预处理
  • 3.2.3 评价指标
  • 3.3 特征基因选择算法
  • 3.3.1 两种特征基因选择算法
  • 3.3.2 标准差分布差异算法
  • 3.4 结果和讨论
  • 3.4.1 分类精度
  • 3.4.2 生物学意义
  • 3.4.3 Heat map图
  • 3.5 结论
  • 第4章 肿瘤亚型多类别分类与分析
  • 4.1 研究意义和现状
  • 4.2 分类器设计
  • 4.2.1 支持向量机方法
  • 4.2.2 K近邻法
  • 4.2.3 简单高斯混合模型算法
  • 4.3 数据和预测评价方法
  • 4.3.1 数据集
  • 4.3.2 交叉验证法
  • 4.4 结果和讨论
  • 4.4.1 随机数据的实验结果
  • 4.4.2 实验数据集的结果
  • 4.5 结论
  • 第5章 总结与展望
  • 5.1 本文研究内容总结
  • 5.1.1 特征基因选择
  • 5.1.2 肿瘤亚型多类别分类
  • 5.2 未来的工作方向
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    • [1].组学技术在肿瘤精准诊疗中应用的研究进展:从单组学分析到多组学整合[J]. 中国肿瘤生物治疗杂志 2019(12)
    • [2].臭氧治疗肿瘤的研究进展[J]. 西部医学 2019(12)
    • [3].肿瘤出芽及其在结直肠癌中的研究进展[J]. 临床与病理杂志 2019(11)
    • [4].溶瘤病毒在犬肿瘤治疗中的研究进展[J]. 中国畜牧兽医 2020(03)
    • [5].肿瘤微环境中外泌体在肿瘤发生发展中作用及机制[J]. 分子诊断与治疗杂志 2020(03)
    • [6].45例住院肿瘤患者跌倒原因分析及护理对策[J]. 中西医结合护理(中英文) 2020(02)
    • [7].长了肿瘤饮食上要注意什么[J]. 医学食疗与健康 2020(06)
    • [8].综合护理干预在肿瘤患者癌性疼痛护理中的应用[J]. 临床医学工程 2020(04)
    • [9].探讨中西医结合免疫疗法在肿瘤方面应用[J]. 中华肿瘤防治杂志 2019(S1)
    • [10].凋亡素抗肿瘤的研究进展[J]. 华中科技大学学报(医学版) 2020(01)
    • [11].“肿瘤干细胞”视角下论伏邪与肿瘤发生学[J]. 四川中医 2020(05)
    • [12].谷氨酰胺代谢相关靶点在肿瘤治疗中的研究进展[J]. 药学学报 2020(05)
    • [13].柴胡加龙骨牡蛎汤联合劳拉西泮治疗肿瘤后抑郁的价值[J]. 深圳中西医结合杂志 2020(06)
    • [14].生酮饮食抗肿瘤治疗研究进展[J]. 癌变·畸变·突变 2020(03)
    • [15].中西医结合防治肿瘤耐药的研究进展[J]. 科学通报 2020(18)
    • [16].高良姜素对不同肿瘤细胞抑制作用[J]. 吉林中医药 2020(07)
    • [17].肠道微生物对肿瘤发生发展及化疗药物的影响[J]. 中国微生态学杂志 2020(07)
    • [18].肿瘤治疗新概念:“解锁”纳米酶的蝴蝶效应打破混沌肿瘤的进化适应性[J]. 科学通报 2020(23)
    • [19].神经递质在肿瘤发生发展中的作用研究进展[J]. 中国药科大学学报 2020(04)
    • [20].2018第三届国际肿瘤精准医学高峰论坛成功举办[J]. 中国医药生物技术 2018(06)
    • [21].肿瘤标志物升高就是得了肿瘤吗[J]. 世界最新医学信息文摘 2019(11)
    • [22].肿瘤细胞中丝氨酸代谢重塑与肿瘤生长关系的研究进展[J]. 中华实用诊断与治疗杂志 2019(11)
    • [23].程序化肿瘤发生的研究进展[J]. 癌症进展 2019(22)
    • [24].肿瘤消融治疗技术临床应用质量控制指标(2017年版)[J]. 肝癌电子杂志 2017(04)
    • [25].第三届中美肿瘤精准医学高峰论坛第一轮通知[J]. 中国医药生物技术 2018(03)
    • [26].活性氧在肿瘤发展和治疗中的作用[J]. 中国细胞生物学学报 2016(10)
    • [27].个性化护理干预对肿瘤患者放疗后睡眠障碍的作用探讨[J]. 实用临床护理学电子杂志 2016(01)
    • [28].是什么,让肿瘤如此不安分[J]. 中国总会计师 2016(11)
    • [29].电压门控型钾通道在肿瘤中的研究进展[J]. 临床口腔医学杂志 2016(12)
    • [30].“刀锋卫士”战肿瘤[J]. 中国医院院长 2016(19)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    基于基因表达数据的肿瘤亚型多类别分类与分析
    下载Doc文档

    猜你喜欢