一种高效的蛋白质同源建模缺失值填充方法

一种高效的蛋白质同源建模缺失值填充方法

论文摘要

蛋白质分子通常由几百、几千个氨基酸组成,完全表达它的结构,需要6N维的空间,其中N是原子数。这是一个维数极其巨大的高维空间,很难利用它来处理问题,对某些问题甚至是不可行。但是由同一个祖先演化而来的同一家族中的不同蛋白质,由于遗传信息的保守性,会在进化过程中保留下来,在结构上的体现就是,这些蛋白质某些部分会有非常相似的三维结构,我们通常称之为保守区域。保守区域的结构可以利用PCA等方法来处理,根据研究问题需要的精度,降低空间的维数,从而达到简化研究问题的复杂性。应用PCA方法来处理蛋白质问题的时候,首先是要对同一个家族的蛋白质分子进行多序列比对;然后按照离散程度,来判断保守区域;对保守区域的结构进行PCA计算,获取保守区域结构,非保守区域部分需要另外考虑。通常来说,保守区域可以利用遗传信息,在处理很多问题的时候,比非保守区域要容易,所以我们在进行PCA计算的时候,希望包含进来的保守区域尽可能的大。但是在非保守区域中还是有些包含少量空位的位置,尽管序列和结构的保守性不如保守区域的保守性强,但是仍然包含很多的遗传信息。如果我们能够把空位的地方填上合适的数值,就可以像保守区域一样利用PCA方法来处理。对这些空位数值的填充,就是所谓的缺失值问题。在处理缺失值问题的时候,很多软件在不影响样本集的情况下直接删除或者忽略缺失值、甚至是使用0值来进行填充。一般来说,忽略缺失值对于样本数量很庞大的样本集影响不大,但是对于生物学上的蛋白质分子就会带来很大的不足与缺陷,这样的处理没有充分利用生物数据集所蕴含的有价值的信息。所以,我们需要尽可能的利用数据之间的关系来填充上合理的数值。本文提出一种高效的蛋白质同源建模缺失值填充方法,区别于传统的迭代方法,这种方法不需要迭代计算,只需要进行两次矩阵运算,是一种完全的线性方法,所以避免了迭代算法影响原始数据的可靠性的问题。同时这种方法不仅仅可以应用于蛋白质同源建模缺失值的填充问题,也可以应用于其它研究领域的缺失值问题,具有一定的广泛性意义。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 论文的研究意义和目的
  • 1.2 论文内容的安排
  • 第2章 蛋白质结构、同源建模、及多序列比对方法简介
  • 2.1 蛋白质的结构
  • 2.1.1 一级结构
  • 2.1.2 二级结构
  • 2.1.3 三级结构
  • 2.1.4 四级结构
  • 2.2 同源建模法
  • 2.3 多序列比对的方法
  • 2.3.1 双序列比对
  • 2.3.2 多序列比对
  • 第3章 PCA方法及missing value问题
  • 3.1 PCA方法
  • 3.2 PCA with missing data
  • 3.2.1 问题的提出
  • 3.2.2 缺失值问题的处理
  • 3.2.3 我们处理缺失值问题的方法
  • 第4章 KNN算法和EM missing value方法
  • 4.1 研究的蛋白质数据集
  • 4.2 研究数据集的多序列比对
  • 4.3 PCA分析
  • 4.4 KNN算法
  • 4.5 Expectation Maximization-missing value方法
  • 第5章 数据结果与讨论
  • 5.1 研究尺度的改进
  • 5.2 特征向量空间质量的研究
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].量表分析中的缺失值估算[J]. 现代预防医学 2009(01)
    • [2].基于时空融合的缺失值填补算法[J]. 计算机工程与设计 2020(01)
    • [3].临床研究中缺失值的类型和处理方法研究[J]. 中国卫生统计 2011(03)
    • [4].一种基于机器学习的属性缺失值模糊填补方法[J]. 计算机与现代化 2008(12)
    • [5].基于灰色关联分析的类中心缺失值填补方法[J]. 四川大学学报(自然科学版) 2020(05)
    • [6].基于同分布无偏样本的伪缺失值检测方法[J]. 计算机与现代化 2010(04)
    • [7].有效解决数据缺失问题的聚集查询算法[J]. 计算机工程与应用 2018(24)
    • [8].单核苷酸多态性数据缺失值填补方法研究[J]. 中国公共卫生 2014(12)
    • [9].缺失值文献综述[J]. 现代商贸工业 2012(23)
    • [10].基于随机森林模型的成分数据缺失值填补法[J]. 应用概率统计 2017(01)
    • [11].不同缺失场景下各缺失值不同处理方法的结果比较[J]. 四川大学学报(医学版) 2018(03)
    • [12].一种基于KNN-SVR的基因表达缺失值的估计方法[J]. 国防科技大学学报 2009(01)
    • [13].LSTM在输变电设备缺失值填补中的应用[J]. 电测与仪表 2019(05)
    • [14].基于Map-Reduce的大数据缺失值填充算法[J]. 计算机研究与发展 2013(S1)
    • [15].WSN中基于线性回归和最大似然的缺失值估计模型[J]. 周口师范学院学报 2016(05)
    • [16].基于关系马尔可夫模型的枚举型缺失值估计[J]. 上海交通大学学报 2013(08)
    • [17].一种基于Epanechnikov二次核的成分数据缺失值填补法[J]. 应用概率统计 2014(06)
    • [18].一种基于K近邻和多元回归的传感器缺失值预测算法[J]. 公路交通科技 2019(03)
    • [19].APT-KNN:一种面向分类问题的高效缺失值填充算法[J]. 计算机应用与软件 2011(04)
    • [20].基于统计相关的缺失值数据处理研究[J]. 统计与决策 2016(12)
    • [21].三种常用的缺失值填充方法[J]. 硅谷 2011(23)
    • [22].缺失值情况下基于决策树算法的长白山植被识别的研究[J]. 长春工程学院学报(自然科学版) 2018(04)
    • [23].一种缺失值填充方法的研究[J]. 黑龙江生态工程职业学院学报 2016(05)
    • [24].运用Gibbs抽样解决数据缺失[J]. 统计与决策 2011(12)
    • [25].基于聚类的连续型数据缺失值充填方法[J]. 计算机工程 2019(09)
    • [26].一种基于支持向量机的缺失值填补算法[J]. 计算机应用与软件 2013(05)
    • [27].灰色建模中数据缺失值处理方法探讨[J]. 测绘通报 2013(07)
    • [28].SPSS在问卷数据校验中的应用研究[J]. 科技资讯 2008(08)
    • [29].时序基因表达缺失值的加权双向回归估计算法[J]. 数据采集与处理 2013(02)
    • [30].灰色建模中数据缺失值处理方法探讨[J]. 辽宁省交通高等专科学校学报 2013(02)

    标签:;  ;  

    一种高效的蛋白质同源建模缺失值填充方法
    下载Doc文档

    猜你喜欢