基因网络分析的统计模型研究

基因网络分析的统计模型研究

论文摘要

细胞的生物功能是通过基因及其产物之间相互作用,形成复杂的调控网络来实现的。理解生命系统中基因间的相互作用及其功能是系统生物学研究的核心内容。通过高通量生物技术,我们获取了大规模的组学数据,如基因表达数据、蛋白质—DNA结合数据、蛋白质相互作用数据以及基因型数据等。这些数据在不同方面提供了系统认识基因的复杂调控机制所需要的信息。尽管许多计算和统计方法已经利用这些数据来分析调控网络,以系统的了解生命活动在分子水平上的机制,但是由于转录调控机制的复杂性以及高通量数据内在的噪声,完全的理解基因调控网络仍然是一个尚待解决的问题。本文以系统生物学中的一些实际问题为出发点,以基因表达数据为基础,建立统计模型,对基因网络的相关问题,如基因共表达网络的模块分析、基因调控网络的构建以及基因网络间的差异分析进行了深入的研究。本文的主要研究内容和创新点如下:1.采用基因权重共表达网络对基因模块的生物学意义及产生机制进行分析。鉴于基因调控网络的复杂性,基因模块被用来简化对基因调控网络的描述。虽然已经对基因模块进行了大量的研究,但是基因模块的定义并不统一,而且对其生物学意义及产生机制缺乏必要的了解。本文采用基因共表达网络对基因模块进行分析,以了解基因模块的生物学意义及其形成的遗传学基础。GO功能信息、KEGG生物通路及转录因子目标基因的富集分析表明,基因模块具有明显的生物学属性,而在共表达网络中采用拓扑重合度量能比皮尔逊相关度量更有效的提取出基因模块。利用同种生物的不同条件下的基因表达数据集,得到的基因模块具有很高的一致性,表明基因网络的模块化是生命活动的固有属性。结合基因型数据与基因表达数据进行的表达数量性状座位分析显示,存在着调控模块中的基因共同表达的基因组区域,部分解释了基因模块产生的遗传学机制。基因模块为分析基因表达数据和增强对基因调控网络的了解提供了简单而有效的方法。2.提出一种新的统计整合模型,能够有效的利用多种类型的干扰型基因表达数据来构建调控网络。基因调控网络在生命活动中发挥着重要的作用,调控网络的研究对认识细胞分化、新陈代谢、信号转导以及疾病产生的机制有着重要意义。随着全基因组表达数据的快速积累,已有很多方法被用来重构基因调控网络。由于涉及到许多基因间的复杂的相互作用,这些方法的精度相对较低,所以重构基因调控网络仍然是具有挑战性的课题。重构基因调控网络时,整合不同类型的基因表达数据,是提高预测精度的一个可能途径。本文提出一种新的统计整合模型,能够有效的利用多种类型的干扰型基因表达数据来构建调控网络。模型的核心思想是针对不同类型基因表达数据的特点分别建模,而后采用Fisher方法将各类型数据中得到的信息进行统计整合。仿真实验的测试结果表明,基因敲除数据是构建调控网络的最有效的信息来源,整合多种类型表达数据进行预测要优于使用单一类型的表达数据。将方法应用到DREAM4 in silico基因网络重构挑战赛,结果表明该模型具有较好的预测性能,在子挑战1中获得第2名。3.构建了基因网络差异分析的贝叶斯层次模型,它能较好的检测出网络的拓扑变化,精度高于其它模型。微阵列基因表达数据的研究重心已经由差异表达基因的检测逐渐转移到基因网络的差异分析。基因调控网络具有动态性和条件特异性,在不同的时间空间条件下,基因的调控模式发生变化,并体现在调控网络的拓扑结构的改变上。检测特异性的基因关联,可以发现在不同条件下基因关联网络的差异,能够促进对细胞发育、疾病病理的了解,并有助于确定药物的靶点基因。针对单一条件下表达数据样本量不足,会导致检测精度不高的问题,本文将不同条件下的、性质各异的表达数据汇集在一起,在贝叶斯框架内建模,使不同条件下的数据能够互相分享信息,以提高检测具有条件特异性的基因关联的精度;模型使用了spike and slab先验分布来模拟基因关联网络的稀疏性,并对基因关联的特异性程度给出了后验概率度量。各种场景下的仿真实验中,该模型均能较好的检测出仿真网络的拓扑变化,其精度高于其它模型。将该模型应用到HapMap基因表达数据中,寻找不同人种间的关联网络的差异,得到了具有生物学意义的结果。本文的研究工作得到了国家留学基金委“国家建设高水平大学公派研究生项目”(CSC:2008634012)和NIH grant GM59507的资助。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 系统生物学概述
  • 1.1.1 系统生物学的定义
  • 1.1.2 系统生物学的网络研究
  • 1.2 本文的研究内容
  • 1.2.1 研究意义
  • 1.2.2 内容安排
  • 第二章 基因共表达网络的模块分析
  • 2.1 研究背景
  • 2.2 基因权重共表达网络分析
  • 2.2.1 共表达相似性度量
  • 2.2.2 邻接函数
  • 2.2.3 邻接函数的参数选择
  • 2.2.4 节点间差异度量
  • 2.2.5 基因模块提取
  • 2.3 数据和分析方法
  • 2.3.1 数据集
  • 2.3.2 富集分析
  • 2.3.3 eQTL 分析
  • 2.4 结果与讨论
  • 2.4.1 网络构建及模块提取
  • 2.4.2 模块的富集分析
  • 2.4.3 拓扑重合与皮尔逊相关的比较
  • 2.4.4 模块的一致性分析
  • 2.4.5 模块的遗传学分析
  • 2.5 结论
  • 第三章 多类型基因表达数据的基因调控网络重构
  • 3.1 研究背景
  • 3.2 统计整合模型
  • 3.2.1 基因表达数据类型
  • 3.2.2 误差模型
  • 3.2.3 关联网络
  • 3.2.4 微分方程模型
  • 3.2.5 统计整合
  • 3.3 数据与评价标准
  • 3.3.1 仿真数据
  • 3.3.2 DRREM4 数据
  • 3.3.3 评价准则
  • 3.4 结果与讨论
  • 3.4.1 仿真数据
  • 3.4.2 DREAM3 数据
  • 3.4.3 DREAM4 数据
  • 3.5 结论
  • 第四章 基因网络差异分析的贝叶斯层次模型
  • 4.1 研究背景
  • 4.2 贝叶斯层次模型
  • 4.2.1 高斯图模型
  • 4.2.2 贝叶斯层次模型
  • 4.2.3 后验仿真
  • 4.2.4 后验推断
  • 4.3 仿真实验
  • 4.3.1 仿真数据
  • 4.3.2 比较方法
  • 4.3.3 评价准则
  • 4.3.4 仿真结果
  • 4.4 生物数据分析
  • 4.5 结论
  • 第五章 总结与展望
  • 参考文献
  • 攻读博士学位期间的研究成果
  • 论文情况
  • 参与的科研工作
  • 致谢
  • 相关论文文献

    • [1].肥胖可使基因网络发生变化而致病[J]. 中华中医药学刊 2008(05)
    • [2].摄食低钠盐对三高病人局部基因网络模式的共同影响[J]. 现代食品科技 2009(01)
    • [3].植物功能基因网络及其应用[J]. 林业科学研究 2018(01)
    • [4].高维大数据基因网络中的社区发现——以NC方法为例[J]. 统计研究 2019(03)
    • [5].水稻产量基因网络的初步研究[J]. 海南师范大学学报(自然科学版) 2019(02)
    • [6].基于惩罚函数的基因网络构建综述[J]. 生物技术世界 2012(12)
    • [7].基因网络中基因关系图谱的构建及其应用(英文)[J]. 生物信息学 2008(02)
    • [8].细菌能预见未来[J]. 生物工程学报 2009(07)
    • [9].果蝇体极性基因网络的稳定性分析[J]. 中国科学:物理学 力学 天文学 2011(04)
    • [10].基于文本的人类疾病基因网络的重构和分析[J]. 黑龙江科技信息 2011(27)
    • [11].核心基因的重要性[J]. 国际精神病学杂志 2018(02)
    • [12].利用生物学网络识别表型相关基因的统计方法研究[J]. 黑龙江大学自然科学学报 2016(02)
    • [13].周期信号对受扰人工合成基因网络的影响[J]. 中国科学:化学 2011(07)
    • [14].基因网络相继故障机理分析(英文)[J]. 生物信息学 2013(01)
    • [15].一种挖掘关键基因的新方法及其应用(英文)[J]. 生物信息学 2012(02)
    • [16].利用决策森林构建复杂疾病驱动的基因网络[J]. 中国生物医学工程学报 2009(02)
    • [17].乳腺癌局部基因网络模型及其与营养代谢模块的耦联[J]. 现代食品科技 2009(10)
    • [18].基于文本挖掘的基因网络分析[J]. 电子技术与软件工程 2017(20)
    • [19].利用eQTL构建基因-基因网络挖掘类风湿性关节炎风险基因[J]. 现代生物医学进展 2014(08)
    • [20].拟南芥APETALA1基因在花发育中的网络调控及其生物学功能[J]. 中国农学通报 2011(08)
    • [21].基于熵值的冠心病基因网络模块划分方法评价与模块功能相似度分析[J]. 中国药理学与毒理学杂志 2018(05)
    • [22].一个合成基因网络的电路模型构建[J]. 天津科技大学学报 2011(04)
    • [23].基于基因网络的产品形态设计研究[J]. 浙江工业大学学报 2016(05)
    • [24].Tup1突变对转录抑制局部网络中基因表达的非线性影响[J]. 生物信息学 2009(04)
    • [25].生物信息学中途径研究进展[J]. 生物技术通报 2008(01)
    • [26].个体化营养产品研制相关的基因网络技术平台研究[J]. 现代食品科技 2010(02)
    • [27].基于偏最小二乘回归的基因网络数学建模[J]. 系统仿真学报 2009(04)
    • [28].基于KEGG通路和基因网络对肝纤维化靶点基因的筛选[J]. 辽宁中医杂志 2019(07)
    • [29].基于全基因组关联分析研究的2型糖尿病局部基因网络构建初探[J]. 中国慢性病预防与控制 2016(02)
    • [30].低能离子束辐照诱导的水稻差异表达基因的调控网络研究[J]. 郑州大学学报(理学版) 2014(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基因网络分析的统计模型研究
    下载Doc文档

    猜你喜欢