基于基因表达谱的小圆蓝细胞瘤亚型识别研究

基于基因表达谱的小圆蓝细胞瘤亚型识别研究

论文摘要

基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤(SRBCT)为研究对象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细胞瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取得如下研究成果: 第一,针对SRBCT 分类信息的度量指标的研究本文提出了用于SRBCT 特征基因选取的类加权Bhattacharyya 距离指标。在修正信噪比指标的基础上,以体现贝叶斯分类错误率的Bhattacharyya 距离衡量基因包含的分类信息。考虑到SRBCT 具有四个亚型,以各类样本占总样本的比例为加权系数,对四个类别的Bhattacharyya 距离加权求和,以此作为基因排序和选择的标准。用两种指标选取基因在不同分类模型上进行亚型识别实验,结果表明,用本文提出的指标选取的基因包含更多的分类信息。第二,针对SRBCT 亚型预测模型的研究本文建立了三种亚型预测模型,首次将多类支持向量机(MSVM)应用到SRBCT亚型识别问题上。分别建立了三层BP 网络模型,基于BSVM 的多模模型和MSVM模型。通过比较不同特征基因集合在三种模型上的分类准确率,确定了一个25个基因的特征集合,基于这个集合利用MSVM 可取得100%的预测准确率。对这三种模型分类性能的对比研究的结果表明,MSVM 优于其它两种方法,是解决SRBCT亚型识别问题的有效工具。第三,针对SRBCT 特征基因集合中冗余基因排除方法的研究本文提出了一种基于Pearson 相关系数的“两两冗余”排除法。该方法考虑到某些基因之间存在着相关性,去掉SRBCT 特征基因集合中分类信息指标较大基因的相关基因,得到15 个特征基因。基于这15 个特征基因本文构建了一个4 聚类SOM 聚类模型,对所有SRBCT 样本进行聚类,聚类正确率达到100%。与文献[5]报道的结果比较,Khan 采用主元分析法和人工神经网络建立的预测模型需要96 个基因,而本文基于MSVM 的预测模型只需15 个特征基因就可取得100%的预测准确率,表明了本文方法的有效性。本文的研究得到了国家自然科学基金的支持,已发表相关论文4 篇, 1 篇发表在《计算机应用》上,2 篇发表在《计算机工程与应用》上,1 篇发表在《Proceedings of the Third International Conference on Machine Learning and Cybernetics, 2004》(EI 收录)。本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题研究的背景
  • 1.1.1 生物信息学
  • 1.1.2 肿瘤基因疾病的诊断
  • 1.1.3 研究的目的与意义
  • 1.2 基于基因表达谱的肿瘤识别研究概况
  • 1.3 本文主要工作
  • 1.3.1 课题来源
  • 1.3.2 主要内容
  • 1.3.3 论文组织
  • 1.4 本章小结
  • 第2章 问题描述与数据来源
  • 2.1 基因表达谱概述
  • 2.1.1 基因表达的基本概念
  • 2.1.2 基因表达水平的检测
  • 2.1.3 基因表达谱数据的获取
  • 2.2 SRBCT 亚型识别问题概述
  • 2.3 SRBCT 基因表达数据库的建立
  • 2.4 本章小结
  • 第3章 数据预处理与特征选取
  • 3.1 数据噪声与预处理
  • 3.1.1 数据噪声的来源
  • 3.1.2 数据预处理
  • 3.2 特征基因选取
  • 3.2.1 分类信息指标
  • 3.2.2 SRBCT 分类特征选取
  • 3.3 特征选取结果比较
  • 3.3.1 生成分类特征基因集合
  • 3.3.2 不同指标选取基因的分类性能
  • 3.4 本章小结
  • 第4章 预测模型的设计与评估
  • 4.1 基于BP 网络的预测模型
  • 4.1.1 BP 网络结构设计
  • 4.1.2 学习算法
  • 4.1.3 交叉校验和独立测试集评估
  • 4.2 基于BSVM 的预测模型
  • 4.2.1 BSVM 原理概述
  • 4.2.2 基于BSVM 的多模分类器
  • 4.2.3 分类器评估与实验结果
  • 4.3 基于MSVM 的预测模型
  • 4.3.1 MSVM 原理概述
  • 4.3.2 MSVM 用于多分类问题的优势
  • 4.3.3 MSVM 分类器的设计与评估
  • 4.4 三种模型的比较
  • 4.5 本章小结
  • 第5章 冗余排除与聚类分析
  • 5.1 用于冗余分析集合的确定
  • 5.2 强相关性冗余基因的排除
  • 5.2.1 “两两冗余”分析
  • 5.2.2 实验结果分析
  • 5.3 SOM 聚类分析
  • 5.4 结果比较与讨论
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基因表达谱技术分析棒曲霉毒素肾细胞毒性的机制[J]. 现代食品科技 2017(06)
    • [2].基于高通量测序的数字基因表达谱技术研究进展[J]. 北方园艺 2015(10)
    • [3].基因表达谱技术:贵亦需有道[J]. 医学争鸣 2010(04)
    • [4].我国发现Ⅰ型糖尿病的多基因表达谱,有助于该病的预测[J]. 生物学教学 2014(09)
    • [5].基于加权极限学习机的肿瘤基因表达谱数据分类[J]. 东北大学学报(自然科学版) 2017(06)
    • [6].奥美拉唑对人脐静脉内皮细胞全基因表达谱的影响及机制分析[J]. 南方医科大学学报 2012(04)
    • [7].脂多糖活化巨噬细胞的数字基因表达谱分析[J]. 中国药理学与毒理学杂志 2013(06)
    • [8].肾阴虚证和肾阳虚证基因表达谱的比较研究[J]. 山西医科大学学报 2012(09)
    • [9].口腔鳞癌细胞外泌体分离鉴定及基因表达谱研究[J]. 中华肿瘤防治杂志 2018(19)
    • [10].原发性骨质疏松症肾阳虚证骨组织全基因表达谱研究[J]. 中国骨质疏松杂志 2017(07)
    • [11].结肠癌基因表达谱降噪算法研究[J]. 医学理论与实践 2015(14)
    • [12].黄芩素对白念珠菌基因表达谱的影响[J]. 第二军医大学学报 2010(07)
    • [13].气滞血瘀证大鼠舌部基因表达谱变化初探[J]. 中国比较医学杂志 2017(09)
    • [14].中医药对类风湿关节炎细胞凋亡及基因表达谱的影响[J]. 中华中医药杂志 2010(04)
    • [15].重金属胁迫下白骨壤数字基因表达谱分析[J]. 林业科学研究 2017(02)
    • [16].高温胁迫下坛紫菜的数字基因表达谱研究[J]. 海洋学报(中文版) 2014(06)
    • [17].基于流形学习的基因表达谱数据可视化[J]. 生物信息学 2009(01)
    • [18].鼻息肉基因芯片检测及基因表达谱的研究[J]. 临床耳鼻咽喉头颈外科杂志 2008(11)
    • [19].转化生长因子β对人肾小管上皮细胞全基因表达谱的影响及其生物信息学分析[J]. 临床肾脏病杂志 2019(06)
    • [20].溃疡性结肠炎患者结肠黏膜基因表达谱生物信息学分析[J]. 解放军医药杂志 2019(11)
    • [21].基因表达谱微阵列网络数据库在肿瘤研究中的应用[J]. 中国生物化学与分子生物学报 2016(03)
    • [22].识别乳腺癌固有成像表型:与基因表达谱相关的初步研究[J]. 国际医学放射学杂志 2014(05)
    • [23].2型糖尿病的基因表达谱分析[J]. 中国实用内科杂志 2012(07)
    • [24].正常-脑瘫双生子基因表达谱差异研究[J]. 辽宁中医杂志 2009(11)
    • [25].脂多糖诱导实验性急性水肿性胰腺炎演变为急性坏死性胰腺炎的基因表达谱变化[J]. 胃肠病学 2008(06)
    • [26].基因表达谱技术从消化道肿瘤基础研究到临床转化[J]. 世界华人消化杂志 2018(34)
    • [27].变应性鼻炎发病相关基因表达谱的生物信息学分析及作为药物筛选新方法的探索[J]. 临床耳鼻咽喉头颈外科杂志 2018(19)
    • [28].干旱胁迫下丹参数字基因表达谱分析[J]. 基因组学与应用生物学 2018(10)
    • [29].盐胁迫下旱地棉叶片数字化基因表达谱分析[J]. 江苏农业学报 2016(03)
    • [30].依硫磷酸调控人类基因表达谱的预测及生物信息学分析[J]. 中国实验血液学杂志 2011(03)

    标签:;  ;  ;  ;  ;  

    基于基因表达谱的小圆蓝细胞瘤亚型识别研究
    下载Doc文档

    猜你喜欢