基因表达数据的缺失值估计研究

基因表达数据的缺失值估计研究

论文摘要

DNA微阵列技术是生物芯片技术之一,它发展成熟且应用广泛,使得人们可以同时对大量基因进行检测,由此获得基因在不同实验条件下的表达水平。然而,事实上,现有的公共基因表达数据库中的基因表达数据均存在不同程度的缺失,这对后续分析造成严重不好的影响。简单剔除含缺失值的整个基因势必造成大量信息的丢失,周期长、代价高的重复试验也不可取。本文从以下几个方面开展了工作,内容如下:首先,从数据集的总体结构角度出发研究贝叶斯主成分分析法,它包括主成分分析、贝叶斯估计及迭代算法,通过缺失数据和模型参数之间不断的相互更新,最终达到收敛,得到缺失值的估计值。其次,从数据集的局部结构角度出发,依据相似基因共同表达原则,研究目前广泛应用的最近邻法及局部最小二乘法。但是这两种算法存在相似的缺陷,即缺失率较大的情况下估计精度大大降低。本文对这两种方法进行了改进,在缺失率较大的情况下,预填充符合条件的基因,扩大备选基因的范围,并按缺失率大小顺序估计。实验表明,算法改进效果显著。再次,从生物知识角度出发研究乙酰化模式回归法。依据是组蛋白乙酰化水平可能会改变染色质的折叠特性并为转录因子提供结合面,造成转录因子的活性很大程度上由组蛋白乙酰化在染色质中的状态来调控。将组蛋白乙酰化数据与基因表达谱数据相结合来选取邻近基因,进而估计缺失值。最后,从统计学方面及基因表达数据的后续分析方面,利用多种指标对以上算法进行评价。其中,本文重点且全面的对填充数据进行层次聚类,通过相应指标来衡量算法性能。另外,本文还将完整数据进行过滤,去除表达水平没有显著变化的基因,利用相同评价指标衡量缺失值估计算法在非完整数据集上的估计精度,分析算法的性能及适用范围。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及研究的目的和意义
  • 1.1.1 研究背景
  • 1.1.2 研究的目的和意义
  • 1.2 国内外发展概况
  • 1.2.1 基因芯片的研究现状
  • 1.2.2 基因表达数据缺失值估计的研究现状
  • 1.2.3 组蛋白乙酰化影响基因表达的研究现状
  • 1.2.4 算法评价的研究现状
  • 1.2.5 聚类算法的研究现状
  • 1.3 本课题的主要研究内容及安排
  • 第2章 基因芯片及评价算法基本理论介绍
  • 2.1 基因芯片原理
  • 2.2 基因芯片数据的预处理
  • 2.2.1 对数化
  • 2.2.2 数据过滤
  • 2.2.3 数据归一化
  • 2.3 缺失值估计算法的评价算法基本理论
  • 2.3.1 归一化均方根误差
  • 2.3.2 类结构的保持度
  • 2.4 基因的差异性表达
  • 2.5 本章小结
  • 第3章 缺失值估计算法设计
  • 3.1 基于数据集的全局结构角度的方法
  • 3.1.1 奇异值分解法
  • 3.1.2 贝叶斯主成分分析法
  • 3.2 基于数据集的局部结构角度的方法
  • 3.2.1 最近邻法
  • 3.2.2 局部最小二乘法
  • 3.2.3 改进算法
  • 3.3 基于生物知识角度的方法
  • 3.4 本章小结
  • 第4章 缺失值估计算法结果
  • 4.1 数据集的选取及预处理
  • 4.2 缺失模型及预处理
  • 4.3 评价指标
  • 4.4 缺失值估计算法性能比较
  • 4.4.1 算法的参数选择
  • 4.4.2 乙酰化模式
  • 4.4.3 针对完整数据集的归一化均方根误差比较
  • 4.4.4 针对完整数据集的类结构保持度比较
  • 4.4.5 针对过滤后的基因数据集的归一化均方根误差比较
  • 4.4.6 针对过滤后的基因数据集的类结构保持度比较
  • 4.4.7 层次聚类结果
  • 4.4.8 运行时间比较
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 相关论文文献

    • [1].量表分析中的缺失值估算[J]. 现代预防医学 2009(01)
    • [2].基于时空融合的缺失值填补算法[J]. 计算机工程与设计 2020(01)
    • [3].临床研究中缺失值的类型和处理方法研究[J]. 中国卫生统计 2011(03)
    • [4].一种基于机器学习的属性缺失值模糊填补方法[J]. 计算机与现代化 2008(12)
    • [5].基于灰色关联分析的类中心缺失值填补方法[J]. 四川大学学报(自然科学版) 2020(05)
    • [6].基于同分布无偏样本的伪缺失值检测方法[J]. 计算机与现代化 2010(04)
    • [7].有效解决数据缺失问题的聚集查询算法[J]. 计算机工程与应用 2018(24)
    • [8].单核苷酸多态性数据缺失值填补方法研究[J]. 中国公共卫生 2014(12)
    • [9].缺失值文献综述[J]. 现代商贸工业 2012(23)
    • [10].基于随机森林模型的成分数据缺失值填补法[J]. 应用概率统计 2017(01)
    • [11].不同缺失场景下各缺失值不同处理方法的结果比较[J]. 四川大学学报(医学版) 2018(03)
    • [12].一种基于KNN-SVR的基因表达缺失值的估计方法[J]. 国防科技大学学报 2009(01)
    • [13].LSTM在输变电设备缺失值填补中的应用[J]. 电测与仪表 2019(05)
    • [14].基于Map-Reduce的大数据缺失值填充算法[J]. 计算机研究与发展 2013(S1)
    • [15].WSN中基于线性回归和最大似然的缺失值估计模型[J]. 周口师范学院学报 2016(05)
    • [16].基于关系马尔可夫模型的枚举型缺失值估计[J]. 上海交通大学学报 2013(08)
    • [17].一种基于Epanechnikov二次核的成分数据缺失值填补法[J]. 应用概率统计 2014(06)
    • [18].一种基于K近邻和多元回归的传感器缺失值预测算法[J]. 公路交通科技 2019(03)
    • [19].APT-KNN:一种面向分类问题的高效缺失值填充算法[J]. 计算机应用与软件 2011(04)
    • [20].基于统计相关的缺失值数据处理研究[J]. 统计与决策 2016(12)
    • [21].三种常用的缺失值填充方法[J]. 硅谷 2011(23)
    • [22].缺失值情况下基于决策树算法的长白山植被识别的研究[J]. 长春工程学院学报(自然科学版) 2018(04)
    • [23].一种缺失值填充方法的研究[J]. 黑龙江生态工程职业学院学报 2016(05)
    • [24].运用Gibbs抽样解决数据缺失[J]. 统计与决策 2011(12)
    • [25].基于聚类的连续型数据缺失值充填方法[J]. 计算机工程 2019(09)
    • [26].一种基于支持向量机的缺失值填补算法[J]. 计算机应用与软件 2013(05)
    • [27].灰色建模中数据缺失值处理方法探讨[J]. 测绘通报 2013(07)
    • [28].SPSS在问卷数据校验中的应用研究[J]. 科技资讯 2008(08)
    • [29].时序基因表达缺失值的加权双向回归估计算法[J]. 数据采集与处理 2013(02)
    • [30].灰色建模中数据缺失值处理方法探讨[J]. 辽宁省交通高等专科学校学报 2013(02)

    标签:;  ;  ;  ;  

    基因表达数据的缺失值估计研究
    下载Doc文档

    猜你喜欢