论文摘要
围绕基因表达数据,本文从基因芯片的噪声检测到基因表达数据显著性分析进行了深入而细致的研究。本文分析了各种传统误标记样本检测方法的优点及不足,在建立描述样本类标和基因表达向量之间关系的回归模型的基础上,依次扰动各样本的类标,并使用扰动影响值来建立扰动影响矩阵,进而捕获这些扰动对回归模型的影响。通过分析和改进扰动影响值,定义了两种更具鲁棒性的扰动影响指标:总体扰动影响值和综合扰动影响值。在此基础上给出了基于扰动影响值的行算法和列算法。在尝试了通过阈值调整的方法弥补行算法的缺陷后,将渐进修正策略引入行算法,开发出渐进行算法,使得检测效果大大提升。针对传统差异表达基因检测方法只注重单一数据集的缺陷,在深入研究单一数据集基因表达变化系数的基础上,本文提出了基于总体数据集统计评估的差异表达基因检测方法。提出了平均绝对差差异系数(MADCV)以及改进的平均绝对差差异系数(IMADCV)两种表达变化系数,实验结果表明MADCV与IMADCV较少受测试数据聚集样本量的影响,无论样本多与少,其检测效果均好于传统方法。在假设检验这一基本思想的前提下,引入总体数据集评估的概念,提出了总体数据集Permutation的方法,使得对差异表达基因的检测更为可靠。
论文目录
提要摘要Abstract第1章 绪论1.1 本文的目的和意义1.2 基因芯片技术的主要应用领域1.3 本文的主要工作1.4 本文的结构第2章 生物信息学背景介绍2.1 生物信息学概述2.1.1 生物信息学的研究对象2.1.2 生物信息学的研究领域2.2 基因芯片2.2.1 基因表达2.2.2 基因表达水平检测技术2.2.3 cDNA芯片2.2.4 寡核苷酸芯片2.2.5 cDNA芯片与寡核苷酸芯片的区别2.3 小结第3章 基于数据扰动的基因表达数据中的误标记样本检测算法3.1 引言3.1.1 基因表达数据中的误标记样本3.1.2 基于LOOPC矩阵的误标记样本检测方法3.2 扰动影响值3.2.1 回归模型的建立3.2.2 扰动影响值3.2.3 扰动影响矩阵3.3 基于扰动影响值的列算法3.3.1 总体扰动影响值3.3.2 列算法3.4 基于扰动影响值的行算法3.4.1 综合扰动影响值3.4.2 行算法3.5 行算法中的阈值调整3.5.1 行算法的缺陷分析3.5.2 阈值调整3.6 渐进修正的行算法3.6.1 渐进修正的基本思想3.6.2 待修正样本的选取3.6.3 渐进算法设计3.7 实验测试与分析3.7.1 测试数据集说明3.7.2 测试指标说明3.7.3 实验结果分析3.8 小结第4章 基因表达数据中的差异表达基因识别4.1 引言4.1.1 差异表达基因检测概述4.1.2 ttest方法4.1.3 SAM方法4.1.4 RankProd方法4.2 传统方法的不足4.3 基因的表达变化量4.3.1 基因芯片数据集的数学描述4.3.2 传统的表达变化系数4.3.3 与类别无关的表达变化系数4.3.4 基于平均绝对差(MAD)的表达变化系数4.4 总体数据集变化量统计评估4.4.1 总体分布法(Distribution)4.4.2 总体界外值法(Outlier)4.4.3 总体permutation法4.5 实验测试与分析4.5.1 实验数据集说明4.5.2 实验结果分析4.6 小结第5章 结论与展望5.1 研究总结5.2 未来研究展望参考文献作者简介及在学期间所取得的科研成果致谢
相关论文文献
标签:基因芯片论文; 误标记样本检测论文; 数据扰动论文; 差异表达基因论文;