基因表达数据分析的若干问题研究

基因表达数据分析的若干问题研究

论文摘要

基因表达信息是理解基因功能和基因调控的潜在机制的重要线索,是生物学医学研究中的重要内容之一。基因芯片是检测基因表达的有效技术,它可以在一次的实验中同时检测成千上万个基因的表达水平,很快就可以产生数以兆计的基因表达数据。本论文针对基因表达数据分析的若干问题进行了研究,主要研究内容如下:1.不同于以往选择特征基因的方法,提出了一种集成数据选择特征基因的新方法(GSMDI-gene selection by multiple data integration)。针对多来源数据中的每一个,首先计算每个基因在这一数据上的差异表达统计量,然后用这些统计量来代替这一原始数据进行后面的分析,最后利用多来源的数据提取特征,在不同的单一来源的数据上进行训练和测试,训练分类器的数据和测试数据是同一来源的,不同来源的数据仅仅用于特征的提取。在四个真实的基因表达数据集上对提出的方法进行测试并与对照的方法比较,实验结果显示,我们的方法所选出的特征应用于分类的效果更好。2.样本的多类分类问题是基因表达数据分析中的热点和难点问题,本文提出了一种基于类别树的多类分类算法,树结构可以提供更强的生物学意义。这一方法首先借助各类别间的关系构造完全图,并且在产生完全图时应用基因选择方法,然后构建的类别树更有利于分类性能的提升,最后通过在类别树上重新进行基因选择并训练基于支持向量机的分类器,把分类和基因选择集成到一起。提出的方法用两个公共可得到的真实数据集进行了测试,实验结果显示该方法运行效率高,分类性能好。3.交叉验证是估计分类误差率的最著名的方法之一,为了降低估计误差,需要重复交叉验证的次数来获得平均结果。然而,交叉验证的次数通常通过经验给出。提出了两个基于近似置信区间的方法(FCI和TSE)用于确定交叉验证的重复次数。在真实数据上的实验结果显示,经验方法给出交叉验证的重复次数通常是不可靠的,所提出的方法确定交叉验证的次数可以达到预先指定精度的误差率。同时,两种方法可以自动适应数据、k值以及分类模型的变化。本文的研究是基因表达数据分析中的几个重要问题,研究成果有利于帮助和支持生物学医学研究人员处理和理解生物学医学问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究的目的和意义
  • 1.2 国内外研究现状和发展趋势
  • 1.2.1 基因选择
  • 1.2.2 多类分类
  • 1.2.3 集成基因表达数据
  • 1.2.4 分类误差的估计
  • 1.3 本文主要研究内容
  • 1.4 本文章节安排
  • 第二章 集成数据选择特征基因
  • 2.1 引言
  • 2.2 集成数据选择特征基因—GSMDI方法
  • 2.3 实验结果
  • 2.3.1 数据集
  • 2.3.2 实验设置
  • 2.3.3 两种常用的数据分类算法
  • 2.3.4 数据分类
  • 2.3.5 实验结果
  • 2.4 本章小结
  • 第三章 基于类别树的多类分类算法
  • 3.1 引言
  • 3.2 相关的工作和问题的描述
  • 3.2.1 相关的工作
  • 3.2.2 问题的描述
  • 3.3 多类分类算法NTSS
  • 3.3.1 类别树的构造
  • 3.3.2 基因选择
  • 3.3.3 训练分类器和测试分类器精度
  • 3.4 实验结果
  • 3.4.1 数据集
  • 3.4.2 实验设置
  • 3.4.3 实验结果
  • 3.5 本章小结
  • 第四章 确定交叉验证的重复次数
  • 4.1 引言
  • 4.2 问题和方法
  • 4.2.1 相关公式和定义
  • 4.2.2 交叉验证
  • 4.2.3 问题描述
  • 4.2.4 确定交叉验证的次数
  • 4.3 结果和讨论
  • 4.3.1 实验设置和数据集
  • 4.3.2 在真实数据集上的实验结果
  • 4.4 本章小结
  • 第五章 总结和展望
  • 5.1 总结
  • 5.2 展望
  • 致谢
  • 参考文献
  • 附录
  • 详细摘要
  • 相关论文文献

    • [1].基于阿尔茨海默病的基因表达数据改进的一维聚类方法[J]. 四川师范大学学报(自然科学版) 2015(04)
    • [2].多步骤决策树方法在基因表达数据上的应用研究[J]. 中国卫生统计 2017(01)
    • [3].基于大脑不同区域的阿尔茨海默症基因表达数据分析[J]. 上海交通大学学报 2013(06)
    • [4].癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报(自然科学版) 2010(02)
    • [5].蛋白质网络和基因表达数据与癌症转移的预测[J]. 国际药学研究杂志 2008(02)
    • [6].基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J]. 中国海洋大学学报(自然科学版) 2013(12)
    • [7].基于非负矩阵分解的大脑不同区域基因表达数据分析[J]. 中国生物医学工程学报 2012(06)
    • [8].浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J]. 科技资讯 2011(33)
    • [9].两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类的比较研究[J]. 中国卫生统计 2009(05)
    • [10].基于层级规则树的跨平台基因表达数据分类[J]. 计算机工程 2019(07)
    • [11].基因表达数据横向荟萃分析方法综述[J]. 数理统计与管理 2018(02)
    • [12].基于矩阵分解技术的显著基因提取及基因表达数据分析[J]. 生物医学工程学杂志 2014(03)
    • [13].基因表达数据分析中的特征基因提取[J]. 微计算机信息 2008(09)
    • [14].免疫聚类算法在基因表达数据分析中的应用[J]. 北京邮电大学学报 2010(02)
    • [15].基因表达数据在数据库中的预处理[J]. 电脑知识与技术 2009(16)
    • [16].基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版) 2018(03)
    • [17].基于稀疏极大边界特征的癌症基因表达数据分析[J]. 郑州师范教育 2012(04)
    • [18].基于DE-CStacking集成的基因表达数据分类算法[J]. 小型微型计算机系统 2019(08)
    • [19].从肿瘤基因表达数据挖掘分类规则的研究[J]. 中国生物医学工程学报 2009(05)
    • [20].微阵列基因表达数据的选择及方法[J]. 现代交际 2015(08)
    • [21].基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J]. 计算机应用 2018(05)
    • [22].基因表达数据分类算法及应用探讨[J]. 洛阳理工学院学报(自然科学版) 2014(03)
    • [23].PSO和Cholesky分解的KELM的基因表达数据分类[J]. 中国计量学院学报 2016(02)
    • [24].基于压缩感知的癌症基因表达数据分类[J]. 中国计量学院学报 2012(01)
    • [25].应用于癌症基因表达数据的OMB双向聚类算法[J]. 计算机工程与应用 2011(28)
    • [26].从基因表达数据中挖掘最大的行常量双聚类[J]. 计算机应用研究 2011(12)
    • [27].小波包分解和模糊聚类下的基因表达数据分析[J]. 计算机工程与应用 2009(19)
    • [28].基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J]. 中国科学技术大学学报 2009(08)
    • [29].基于基因表达数据的双聚类分析研究[J]. 河南科技 2018(34)
    • [30].基因表达数据中的局部模式挖掘研究综述[J]. 计算机研究与发展 2018(11)

    标签:;  ;  ;  ;  ;  ;  

    基因表达数据分析的若干问题研究
    下载Doc文档

    猜你喜欢