朴素贝叶斯分类器预测拟南芥蛋白质相互作用及蛋白质功能注释

朴素贝叶斯分类器预测拟南芥蛋白质相互作用及蛋白质功能注释

论文摘要

蛋白质是生命体功能真正的执行者,而蛋白质之间的相互作用在大多数的生物学过程比如细胞代谢、转录、调控机制、信号传导中发挥着重要作用。拟南芥基因组的测序完成后,有关功能基因组的研究已经全面展开。研究拟南芥蛋白质相互作用,特别是识别那些拟南芥特有的蛋白质,对于了解拟南芥蛋白质功能有着非常重要的作用。后基因组时代的到来为生物信息学在全基因组范围预测拟南芥蛋白质相互作用提供了丰富的数据和信息。近年来随着大规模实验技术、比较基因组学、生物信息学的发展,在蛋白质相互作用研究领域涌现出了各种预测方法,但是不同方法之间存在巨大差异,有其内在的偏好性。有机地整合不同的方法,对每种方法取长补短成为现阶段的研究热点。本论文中首先收集了有助于预测拟南芥蛋白质相互作用的基因组数据以及蛋白质组数据,包括4种模式生物的共14987对蛋白质相互作用数据、3020对蛋白质功能域相互作用数据、拟南芥蛋白质功能域组成数据117090条、5组实验的445张芯片的不同拟南芥生物样本的基因表达谱数据、1960组拟南芥蛋白质生物功能注释数据、以及261种其他物种基因组序列数据。同时使用了现阶段在全基因组范围内预测蛋白质相互作用的方法,如基于蛋白质相互作用跨物种的保守性理论(Ortholog)、基因表达谱相似理论(Co-Expression)、功能结构域相互作用理论(Domain Pair Interaction)、最小共享生物途径理论(Share BiologicalProcess)、基因系统发生谱理论(Gene phylogenetic profiles method)、基因融合理论(Gene Fusion method)、基因邻近理论(Gene Neighbors method)等预测理论。论文中对以上理论进行检验并针对朴素贝叶斯分类器进行优化。朴素贝叶斯分类器是一种简单高效的分类算法,被广泛应用于整合离散型数据类型。本论文中搜集的DIP、Bind、IntAct、TAIR等数据库、文献搜集到的拟南芥蛋白质相互作用集合同4666对相互作用作为正极数据和基因本体论注释数据库的亚细胞定位数据构建196855对蛋白质相互作用作为负极数据构成朴素贝叶斯分类器的训练集。本文使用朴素贝叶斯分类器,结合构建的训练集,对拟南芥全部蛋白质进行相互作用预测。最后预测得到了22622对相互作用的蛋白对,并通过预测的拟南芥蛋白质相互作用构建了拟南芥蛋白质相互作用数据库(ATPID)。结合拟南芥盐碱胁迫蛋白质构建了拟南芥盐胁迫下的蛋白质相互作用网络,揭示了其中重要的功能模块,同时还运用预测的蛋白质相互作用网络结合亚细胞定位的信息构建了拟南芥叶绿体中的蛋白质相互作用网络。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 拟南芥简介
  • 1.1.1 拟南芥的生物学特征
  • 1.1.2 拟南芥成为模式种的由来
  • 1.1.3 拟南芥后基因组研究的发展趋势
  • 1.2 预测蛋白质相互作用方法的研究进展
  • 1.2.1 进化保守性预测法
  • 1.2.2 全基因组表达谱芯片数据
  • 1.2.3 功能结构域
  • 1.2.4 通过最小生物学功能预测法
  • 1.2.5 全基因组基因融合法
  • 1.2.6 系统进化谱方法
  • 1.2.7 全基因组基因邻近法
  • 1.3 蛋白质相互作用方法整合的研究进展
  • 1.3.1 朴素贝叶斯分类法
  • 1.3.2 支持向量机
  • 1.4 研究目的意义
  • 2 拟南芥蛋白质相互作用网络的数据基础
  • 2.1 蛋白质序列信息
  • 2.2 基因芯片来源
  • 2.3 蛋白质ID及名称转换
  • 2.4 相互作用数据信息来源
  • 2.4.1 构建黄金标准时使用的阳性集合
  • 2.4.2 构建黄金标准时使用的阴性集合
  • 2.4.3 构建直系同源时使用的其他物种相互作用信息
  • 2.5 拟南芥蛋白质结构信息来源
  • 2.6 蛋白质直系同源数据来源
  • 2.7 拟南芥蛋白质注释信息来源
  • 2.8 本章小结
  • 3 拟南芥蛋白质相互作用预测
  • 3.1 阳性集合与阴性集合的构建
  • 3.1.1 阳性集合(GSP)的构建
  • 3.1.2 阴性集合(GSN)的构建
  • 3.2 直系同源预测
  • 3.2.1 原理
  • 3.2.2 过程
  • 3.2.3 结果
  • 3.3 结构功能域预测
  • 3.3.1 原理
  • 3.3.2 过程
  • 3.3.3 结果
  • 3.4 最小共享生物途径预测
  • 3.4.1 原理
  • 3.4.2 过程
  • 3.4.3 结果
  • 3.5 基因芯片预测
  • 3.5.1 原理
  • 3.5.2 过程
  • 3.5.3 结果
  • 3.6 基因融合预测、系统进化谱、基因邻近
  • 3.6.1 原理
  • 3.6.2 过程
  • 3.6.3 结果
  • 3.7 本章小结
  • 4 蛋白质相互作用网络的整合及蛋白质功能预测
  • 4.1 研究内容
  • 4.2 朴素贝叶斯方法整合理论
  • 4.3 各种方法独立性研究
  • 4.4 拟南芥蛋白质功能预测
  • 4.4.1 蛋白质功能预测的方法
  • 4.4.2 拟南芥蛋白质功能的预测
  • 4.5 拟南芥蛋白质相互作用数据库
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].不得不知的蛋白质三大功能[J]. 现代养生 2020(17)
    • [2].酷算龙(四)[J]. 小学科技 2011(02)
    • [3].当基因爱上蛋白质[J]. 生命的化学 2019(05)
    • [4].生命离不开蛋白质[J]. 科学大观园 2009(05)
    • [5].科学家为你设计手工蛋白质[J]. 世界科学 2018(02)
    • [6].基于氨基酸序列和模拟结构预测蛋白质稳定性的研究进展[J]. 生物技术通报 2017(04)
    • [7].如何补充蛋白质食物才科学[J]. 烹调知识 2016(09)
    • [8].《生命活动的主要承担者——蛋白质》一节的教学设计[J]. 新课程(中学) 2014(12)
    • [9].分龄解读蛋白质补充[J]. 父母必读 2015(07)
    • [10].蛋白质——生命的基础材料[J]. 现代养生 2012(06)
    • [11].蛋白质是人体的原材料[J]. 现代养生 2012(14)
    • [12].初学者做好蛋白质SDS-PAGE需要注意的一些问题[J]. 生物学通报 2011(06)
    • [13].我曾只想做一枚安静的蛋白质[J]. 生命的化学 2019(06)
    • [14].基于网络资本评估和节点失效的关键蛋白质识别算法研究[J]. 智能计算机与应用 2016(06)
    • [15].近红外成像用于双向电泳前的蛋白质快速定量[J]. 分析科学学报 2017(04)
    • [16].家兔对蛋白质营养需要的分析[J]. 现代畜牧科技 2017(11)
    • [17].研究发现蛋白质可通过“展开”来预防机能失调及疾病[J]. 广东药科大学学报 2017(05)
    • [18].浅析蛋白质的相关问题[J]. 中学生物教学 2016(Z1)
    • [19].健康人的尿液中为什么会有蛋白质?[J]. 中国科学:生命科学 2020(03)
    • [20].蛋白质互作技术研究进展[J]. 湖北农业科学 2019(12)
    • [21].动态蛋白质网络的构建、分析及应用研究进展[J]. 计算机研究与发展 2017(06)
    • [22].有关蛋白质问题的解题策略[J]. 中学生数理化(学习研究) 2016(07)
    • [23].第十讲 人体必需的营养素——蛋白质[J]. 现代养生 2014(01)
    • [24].浅谈运动员如何补充蛋白质[J]. 田径 2011(03)
    • [25].巧搭蛋白质[J]. 养生大世界(B版) 2009(05)
    • [26].如何评价蛋白质的优劣[J]. 科学健身(健美先生) 2009(04)
    • [27].漫话蛋白质[J]. 云南科技管理 2011(05)
    • [28].热处理对蛋白质的影响[J]. 食品安全导刊 2015(36)
    • [29].常见蛋白质易错题的归类分析[J]. 中学生物学 2011(01)
    • [30].生命活动的主要承担者——蛋白质[J]. 课程教育研究 2015(23)

    标签:;  ;  ;  ;  

    朴素贝叶斯分类器预测拟南芥蛋白质相互作用及蛋白质功能注释
    下载Doc文档

    猜你喜欢