统计建模分析高通量生物数据及其应用

统计建模分析高通量生物数据及其应用

论文摘要

随着现代生物学的发展,从生物分子层面上研究生物问题对发现生命现象的本质尤其是理解疾病的致病原理的重要作用已经得到了广泛认同.高通量试验技术包括生物芯片[78;115;135],酵母菌双层杂交试验[58;130],质谱分析[40;54],染色质免疫沉淀反应[59;109]等等.在这些高通量试验技术快速发展的驱动下,同时获得人类或其他模型生物的数以千计的分子及这些分子之间交互作用的数据成为可能。如此大量的数据信息为我们重新理解细胞生物和疾病提供了宝贵的机会。与此同时,高通量数据的特点是:预测变量的维数远远大于样本个数;数据结构非常复杂;数据噪声很大;观测值缺失或不确定等等。在这种情况下,大多数传统统计方法不能得到正确的预测结果,或者得到的预测结果效用有限。因此,我们面临的重大挑战就是设计新的统计模型来高效的获取,分析,解释这些数据中包含信息。在这篇论文中,我们主要从如下几个方面出发建立统计模型分析生物数据:1.利用dK随机图模型预测生物网络中的功能模块。生物功能的很多方面可以用生物网络建模,例如蛋白质交互网络,新陈代谢网络和基因共表达网络。研究这些网络的统计特征可以帮助我们推测生物功能。复杂的统计网络模型能够更加精确的描述网络,但是复杂模型是否有助于找到有生物意义的子网络还不清楚。近来的研究表明网络中点的度分布不足以充分刻画网络特征。在第二章中,我们尝试将度分布扩展到二阶和三阶相关度分布。我们设计了一种伪似然的方法来估计参数。我们应用这种方法分析了MIPS和BIOGRID酵母菌蛋白质交互网络和两个酵母菌基因共表达网络。结果表明,不论是在蛋白质交互网络还是在基因共表达网络中,二阶相关度分布模型能够更好的预测基因之间的交互关系。然而,对于预测功能模块,相关度分布模型在蛋白质交互网络的情况下表现比一般度分布模型稍好,对于基因共表达网络,相关度分布模型表现不如一般度分布模型。我们的计算结果表明:结合度分布交互信息可以在某些方面提高预测准确度,但是,在所有的方面,三阶相关度分布模型的预测精度反而不好。如果我们使用其它的参数估计方法,例如极大似然估计,有可能体现二阶和三阶度分布交互模型在预测功能模块方面的优势。2.从蛋白质功能域交互网络出发,在蛋白质功能域上定位致病变异对导致人类复杂疾病的遗传变异的辨识和致病基因的定位是非常重要的。蛋白质分子一般由数个蛋白质功能域组成。我们假设有害的遗传变异会导致蛋白质功能域结构发生变化,影响蛋白质功能,并最终导致疾病。以此为出发点,我们探索利用蛋白质功能域交互网络恢复蛋白质功能域与疾病之间的关联关系。根据非同义单核苷酸多态性与复杂疾病之间的关联关系,我们定义蛋白质功能域与复杂疾病之间的关联关系。以蛋白质功能域交互网络为出发点,我们提出了“guilt-by-proximity”方法:根据候选功能域与种子功能域之间在蛋白质功能域交互网络中的平均距离对候选蛋白质功能域排序。我们用大规模交叉验证试验的方法在模拟连锁区间,随机控制集合和整个基因组三种情况下验证了我们的方法。通过致病蛋白质功能域的AUC值和平均排名比率对方法进行量化验证。结果表明:我们的方法的AUC值为77.9%,平均排名比率为21.82%。我们进一步对整个基因组中蛋白质功能域与疾病之间的关联关系进行了排名,并提供了免费的查询网站。这个网站为定位导致复杂疾病的遗传变异提供了有用的信息。3.在候选位点存在强连锁不平衡的条件下辨识功能位点在单个基因区域中,多个生物学标记有可能表现出强烈的连锁不平衡性。某种表现型可能与数个生物学标记之间有强列的统计相关性。邻居位点上变异之间的连锁不平衡,尤其是强连锁不平衡不仅为辨识与特定表现型相关的生物学标记制造了困难,而且阻碍了区分功能相关变异和非功能相关变异。在第四章中,我们考虑了5种不同的方法:助推法,Lasso,岭回归,逐步回归和单位点分析。在变异之间存在连锁不平衡的情况下,我们利用模拟比较这五种方法预测功能变异的表现。我们发现:如果有100个样本,在20位点之间存在强连锁不平衡的条件下,岭回归表现最好;在500或1000个位点之间有退化的连锁不平衡的条件下,助推法表现最好。

论文目录

  • Chinese Abstract
  • English Abstract
  • 第一章 引言
  • §1.1 生物背景
  • §1.2 生物分子网络和其中功能一致子网络的辨识
  • §1.3 蛋白质功能域与疾病之间的相关关系
  • §1.4 不同方法在连锁不平衡的情况下预测功能位点的表现
  • 第二章 利用dK模型预测生物网络中功能一致子网络的有效性和缺陷
  • §2.1 数据和方法
  • §2.1.1 数据
  • §2.1.2 dK模型参数估计
  • §2.1.3 检验dK模型预测网络交互的能力
  • §2.1.4 dK模型下网络样本的随机模拟
  • §2.1.5 验证模型辨识功能一直子网络的能力
  • §2.1.6 功能一致性预测的评估
  • §2.1.7 利用模拟退火寻找高值函数模块
  • §2.2 结果和讨论
  • §2.2.1 dK模型预测网络交互的表现
  • §2.2.2 dK模型随机网络的统计特征与真实网络相应特征的比较
  • §2.2.3 dK模型分辨功能一致模块的表现
  • §2.3 结论
  • §2.4 附录
  • §2.4.1 补充图
  • §2.4.2 补充表
  • 第三章 利用蛋白质功能域交互网络对蛋白质功能域与复杂疾病的关联关系排序
  • §3.1 数据和方法
  • §3.1.1 数据
  • §3.1.2 Guilt by proximity
  • §3.1.3 评价准则
  • §3.2 结果
  • §3.2.1 方法的表现
  • §3.2.2 蛋白质功能域交互网络偏差的影响
  • §3.2.3 蛋白质功能域与疾病关联关系的预测
  • §3.3 Conclusion
  • 第四章 借助随机模拟比较几种方法处理基因关联分析中连锁不平衡性的表现
  • §4.1 Methods
  • §4.1.1 单位点分析
  • §4.1.2 逐步回归
  • §4.1.3 岭回归
  • §4.1.4 Boosting
  • §4.1.5 LASSO
  • §4.1.6 方法的评估
  • §4.2 结果
  • §4.2.1 20个位点有强连锁性
  • §4.2.2 500和1000个位点之间有退化的连锁不平衡性
  • §4.3 结论
  • Bibliography
  • 作者简介
  • 致谢
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].TLR-9胞外功能域裂解产生功能受体[J]. 中国病理生理杂志 2009(04)
    • [2].离子交换层析纯化重组福安泰-03功能域的工艺条件研究[J]. 长江大学学报(自然科学版)理工卷 2010(02)
    • [3].Zwittermicin A合成基因簇中腺苷酰化功能域的预测、表达与活性验证[J]. 微生物学报 2008(09)
    • [4].哺乳动物锌指蛋白家族中KRAB功能域的进化[J]. 生物信息学 2009(03)
    • [5].人源蛋白酪氨酸磷酸酶PTP1B功能域及其全酶的原核表达及活性比较[J]. 河南大学学报(自然科学版) 2014(02)
    • [6].香蕉线条病毒衣壳蛋白功能域基因的原核表达及抗血清制备[J]. 园艺学报 2013(12)
    • [7].小麦ACCase CT功能域基因在大肠杆菌中的表达及与除草剂的相互作用[J]. 高等学校化学学报 2011(12)
    • [8].MYH7基因突变功能域与肥厚型心肌病临床表型关联研究[J]. 中国分子心脏病学杂志 2017(06)
    • [9].TLR2和TLR4的TLR/IL-1 receptor结构与功能[J]. 免疫学杂志 2014(02)
    • [10].香蕉线条病毒MP功能域基因的克隆、原核表达及抗血清制备[J]. 华南农业大学学报 2014(02)
    • [11].抗胶原Ⅱ功能域抗体诱导的RA样小鼠模型的建立及其免疫病理学指标分析[J]. 现代免疫学 2013(01)
    • [12].棉花GhGAI3a DELLA功能域缺失过表达载体的构建及其功能初步分析[J]. 石河子大学学报(自然科学版) 2012(05)
    • [13].基于业务功能域拆分的BOSS数据库规划与实践[J]. 电信技术 2008(10)
    • [14].基于分子动力学的miRNA 3'端与Argonaute蛋白PAZ功能域相互作用的研究[J]. 大连海洋大学学报 2012(05)
    • [15].稻瘟菌WD重复功能域中SSR的变异及其对蛋白结构的影响[J]. 植物分类与资源学报 2011(04)
    • [16].重组双功能域补体受体Ⅰ型分子在Vero细胞中的稳定表达及其抑制补体活化的初步研究[J]. 现代免疫学 2010(01)
    • [17].植物U-box/ARM蛋白[J]. 植物生理学通讯 2008(06)
    • [18].人补体受体1型SCR1-3功能域基因的克隆表达及生物活性鉴定[J]. 免疫学杂志 2012(01)
    • [19].植物Cation/H~+反向转运蛋白研究进展[J]. 基因组学与应用生物学 2012(03)
    • [20].论语体得体的文化性[J]. 贵州工程应用技术学院学报 2017(04)
    • [21].羊毛硫细菌素bovicin HJ50修饰酶BovM双功能域单独催化活性鉴定[J]. 微生物学报 2015(01)
    • [22].柯萨奇-腺病毒受体不同胞内功能域缺失突变载体的构建与表达[J]. 广东医学 2011(15)
    • [23].猪链球菌9型噬菌体裂解酶Ply5218最小功能域及关键氨基酸位点的鉴定[J]. 上海交通大学学报(农业科学版) 2019(01)
    • [24].认知语言学视阈下日语“ーナル”构式被动语义研究——以名词为中心[J]. 科教文汇(中旬刊) 2019(01)
    • [25].针刺干预中风专用生活质量量表的Rasch分析[J]. 中国针灸 2013(04)
    • [26].Cis-AT和Trans-AT聚酮合酶及其特殊功能域研究进展[J]. 东北农业大学学报 2016(01)
    • [27].ITSN1-S的SH3功能域对恶性胶质瘤细胞U87增殖能力的影响[J]. 中国肿瘤临床 2013(18)
    • [28].捻转血矛线虫H11部分功能域基因的原核表达与分析[J]. 浙江大学学报(农业与生命科学版) 2008(06)
    • [29].巨大芽孢杆菌β-淀粉酶基因的克隆、表达和酶学性质分析[J]. 生物工程学报 2008(10)
    • [30].水稻细胞质雄性不育相关基因orf290功能域的初步研究[J]. 生物技术 2019(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    统计建模分析高通量生物数据及其应用
    下载Doc文档

    猜你喜欢