基因芯片数据处理与分析方法研究

基因芯片数据处理与分析方法研究

论文摘要

围绕基因表达数据,本文从基因芯片的噪声检测到基因表达数据显著性分析进行了深入而细致的研究。本文分析了各种传统误标记样本检测方法的优点及不足,在建立描述样本类标和基因表达向量之间关系的回归模型的基础上,依次扰动各样本的类标,并使用扰动影响值来建立扰动影响矩阵,进而捕获这些扰动对回归模型的影响。通过分析和改进扰动影响值,定义了两种更具鲁棒性的扰动影响指标:总体扰动影响值和综合扰动影响值。在此基础上给出了基于扰动影响值的行算法和列算法。在尝试了通过阈值调整的方法弥补行算法的缺陷后,将渐进修正策略引入行算法,开发出渐进行算法,使得检测效果大大提升。针对传统差异表达基因检测方法只注重单一数据集的缺陷,在深入研究单一数据集基因表达变化系数的基础上,本文提出了基于总体数据集统计评估的差异表达基因检测方法。提出了平均绝对差差异系数(MADCV)以及改进的平均绝对差差异系数(IMADCV)两种表达变化系数,实验结果表明MADCV与IMADCV较少受测试数据聚集样本量的影响,无论样本多与少,其检测效果均好于传统方法。在假设检验这一基本思想的前提下,引入总体数据集评估的概念,提出了总体数据集Permutation的方法,使得对差异表达基因的检测更为可靠。

论文目录

  • 提要
  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 本文的目的和意义
  • 1.2 基因芯片技术的主要应用领域
  • 1.3 本文的主要工作
  • 1.4 本文的结构
  • 第2章 生物信息学背景介绍
  • 2.1 生物信息学概述
  • 2.1.1 生物信息学的研究对象
  • 2.1.2 生物信息学的研究领域
  • 2.2 基因芯片
  • 2.2.1 基因表达
  • 2.2.2 基因表达水平检测技术
  • 2.2.3 cDNA芯片
  • 2.2.4 寡核苷酸芯片
  • 2.2.5 cDNA芯片与寡核苷酸芯片的区别
  • 2.3 小结
  • 第3章 基于数据扰动的基因表达数据中的误标记样本检测算法
  • 3.1 引言
  • 3.1.1 基因表达数据中的误标记样本
  • 3.1.2 基于LOOPC矩阵的误标记样本检测方法
  • 3.2 扰动影响值
  • 3.2.1 回归模型的建立
  • 3.2.2 扰动影响值
  • 3.2.3 扰动影响矩阵
  • 3.3 基于扰动影响值的列算法
  • 3.3.1 总体扰动影响值
  • 3.3.2 列算法
  • 3.4 基于扰动影响值的行算法
  • 3.4.1 综合扰动影响值
  • 3.4.2 行算法
  • 3.5 行算法中的阈值调整
  • 3.5.1 行算法的缺陷分析
  • 3.5.2 阈值调整
  • 3.6 渐进修正的行算法
  • 3.6.1 渐进修正的基本思想
  • 3.6.2 待修正样本的选取
  • 3.6.3 渐进算法设计
  • 3.7 实验测试与分析
  • 3.7.1 测试数据集说明
  • 3.7.2 测试指标说明
  • 3.7.3 实验结果分析
  • 3.8 小结
  • 第4章 基因表达数据中的差异表达基因识别
  • 4.1 引言
  • 4.1.1 差异表达基因检测概述
  • 4.1.2 ttest方法
  • 4.1.3 SAM方法
  • 4.1.4 RankProd方法
  • 4.2 传统方法的不足
  • 4.3 基因的表达变化量
  • 4.3.1 基因芯片数据集的数学描述
  • 4.3.2 传统的表达变化系数
  • 4.3.3 与类别无关的表达变化系数
  • 4.3.4 基于平均绝对差(MAD)的表达变化系数
  • 4.4 总体数据集变化量统计评估
  • 4.4.1 总体分布法(Distribution)
  • 4.4.2 总体界外值法(Outlier)
  • 4.4.3 总体permutation法
  • 4.5 实验测试与分析
  • 4.5.1 实验数据集说明
  • 4.5.2 实验结果分析
  • 4.6 小结
  • 第5章 结论与展望
  • 5.1 研究总结
  • 5.2 未来研究展望
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基因芯片数据处理与分析方法研究
    下载Doc文档

    猜你喜欢