基于数据挖掘算法的蛋白质相互作用及其活性位点研究

基于数据挖掘算法的蛋白质相互作用及其活性位点研究

论文摘要

随着高通量测序技术的不断发展,蛋白质序列的数目在呈指数形式增加,但是他们的功能和相互作用关系仍然是未知的。如何更快速有效地分析蛋白质特性及其相互作用,并对这些蛋白质的活性位点及其功能进行标注,已经成为迫在眉睫的问题。而另一方面,计算机技术的不断发展,为分子生物学研究提供了新的强大手段。既然蛋白质相互作用及其活性位点分析面临海量数据,有效地运用数据挖掘的方法来分析这些海量数据并揭示数据背后隐藏的自然规律,已经成为国际上蛋白组学及计算生物学研究的一个前沿课题。在过去几十年,提出了很多研究和分析蛋白质的数据挖掘及机器学习方法,而且这方面的研究一直受到持续的关注。本文从蛋白序列出发,通过开发更有效的数据挖掘方法来实现蛋白质相互作用及其活性位点的准确而快速的预测,并且开发出相应的独立算法包和在线网站。本文创新性主要体现在以下方面:提出了一种基于压缩采样算法的蛋白相互作用预测方法。该法首先从蛋白质序列中提取了有较强区分性的特征,然后考虑到获取的高维稀疏特征空间可能产生的负面影响如维数灾难,特征冗余等,使用压缩采样方法将高维特征空间转换为低维紧致特征空间,而且与通常采用的降维方法进行了对比,论证了压缩采样方法的高效性,并且可以保留尽可能多的有效信息。然后通过使用支持向量机、旋转森林等方法在压缩后的特征空间构造分类器模型,进一步地论证了在压缩后特征空间中构造的分类器模型可以有效地避免过拟合现象(overfitting),同时也讨论了正负样本数据集不平衡情况下分类器模型的鲁棒性及不同的负样本集构造策略对结果的影响。提出了一种基于bi-profile采样的蛋白活性位点预测方法。该方法首先抽取了蛋白的序列保守性特征,并且针对序列保守性特征在训练模型中出现的过拟合现象,对特征进行了预处理。然后采用bi-profile采样方法有效抽取了序列氨基酸组成特征、蛋白质二级结构特征、序列氨基酸disorder特征和序列氨基酸亲水性特征。最后,研究了不同的特征组合、不同的分类器模型、集成方法在活性位点预测方面的性能,同时也研究了样本集不平衡情况下模型的鲁棒性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景和意义
  • 1.2 研究现状
  • 1.2.1 蛋白相互作用研究
  • 1.2.2 蛋白质活性位点研究
  • 1.3 研究内容与创新点
  • 1.4 本文组织结构
  • 第二章 背景知识介绍
  • 2.1 蛋白质相互作用
  • 2.1.1 基于生物实验检测蛋白质相互作用
  • 2.1.2 蛋白质相互作用数据库
  • 2.2 蛋白质活性位点
  • 2.3 数据挖掘及机器学习
  • 2.3.1 随机森林
  • 2.3.2 支持向量机
  • 2.4 模型评测方法
  • 2.4.1 交叉验证
  • 2.4.2 接受者操作特性曲线
  • 第三章 基于压缩采样算法的蛋白质相互作用预测
  • 3.1 背景及动机
  • 3.2 基准数据集及其预处理
  • 3.2.1 数据集准备
  • 3.2.2 序列特征抽取
  • 3.3 压缩采样方法
  • 3.4 结果分析及讨论
  • 3.5 本章小结
  • 第四章 基于Bi‐profile 采样的蛋白活性位点严格评测
  • 4.1 背景及动机
  • 4.2 基准数据集及其预处理
  • 4.2.1 序列特征抽取
  • 4.2.2 获取推导特征
  • 4.3 Bi‐profile 采样方法
  • 4.4 结果分析与讨论
  • 4.4.1 分析活性位点特异性的决定因素
  • 4.4.2 通过进化信息来预测活性位点
  • 4.4.3 通过融合推导特征来提高预测性能
  • 4.4.4 与其他方法的比较
  • 4.4.5 讨论
  • 4.5 本章小结
  • 第五章 独立算法包及数据集的提供
  • 5.1 动机及目的
  • 5.2 独立算法包及在线网站
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 附录A 缩写对照表
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].G蛋白偶联受体119活性位点预测及与吡唑并嘧啶类激动剂对接研究[J]. 湖南师范大学自然科学学报 2018(01)
    • [2].铜Ⅱ化合物水解肌红蛋白活性位点的质谱研究[J]. 分析化学 2009(09)
    • [3].氮掺杂碳材料的制备及其化学活性位点研究[J]. 云南化工 2019(07)
    • [4].墨旱莲组分中组织蛋白酶K非活性位点抑制剂研究[J]. 药学学报 2017(06)
    • [5].基于分子信标的有机磷农药适配体活性位点分析及改造[J]. 分析化学 2012(06)
    • [6].基于结构的香农熵及其在金属β-内酰胺酶结构分析中的应用研究[J]. 抗感染药学 2012(03)
    • [7].高斯计算应用于杂环亲电取代活性位点预测[J]. 化学教育 2016(08)
    • [8].NDM-1的同源建模及其模型活性位点分析[J]. 生物信息学 2012(02)
    • [9].表面缺陷α-Fe_2O_3(001)纳米片双活性位点类芬顿催化剂用于降解污染物(英文)[J]. 无机化学学报 2019(09)
    • [10].HIF-1α基因转录活性位点在人骨髓间充质干细胞分化成心肌细胞中的作用[J]. 湖北民族学院学报(医学版) 2013(02)
    • [11].前列腺细胞高表达的CD59分子活性位点的封闭研究[J]. 免疫学杂志 2009(01)
    • [12].野葛葡糖基转移酶PlUGTs的同源建模及其活性位点分析[J]. 生物信息学 2013(04)
    • [13].基于定点突变技术对苦荞麦胰蛋白酶抑制剂活性位点的研究[J]. 中国生物工程杂志 2015(12)
    • [14].水稻OsPIN1a基因体外表达及蛋白磷酸化活性位点分析[J]. 热带作物学报 2014(08)
    • [15].采用新技术已可精确分辨催化剂表面的活性位[J]. 石油炼制与化工 2018(01)
    • [16].团簇V_3BP成键及活性位点的研究[J]. 辽宁科技大学学报 2017(04)
    • [17].(Fe,Co)-N-C纳米空心球的制备及电催化性能的研究[J]. 安徽化工 2018(01)
    • [18].靶向基质金属蛋白酶14类血红素结构域特异活性位点的确定及反义肽虚拟筛选[J]. 生物技术通讯 2014(05)
    • [19].碳模板诱导生长Fe-N_x活性位点(英文)[J]. 催化学报 2018(08)
    • [20].蛋白酪氨酸磷酸酯酶1B活性位点Asp 48突变理论研究[J]. 天津医科大学学报 2009(04)
    • [21].橡胶草异戊烯焦磷酸异构酶基因的电子克隆及分析[J]. 生物信息学 2013(03)
    • [22].姜黄素的量化计算及反应活性预测[J]. 天津农学院学报 2009(03)
    • [23].10-去乙酰巴卡亭Ⅲ-10-β-O-乙酰转移酶迭代饱和突变与活性位点分析[J]. 中国医药生物技术 2018(06)
    • [24].甘蔗14-3-3基因克隆及表达分析[J]. 南方农业学报 2013(11)
    • [25].“超级细菌”NDM-1的研究进展[J]. 中国新药杂志 2013(16)
    • [26].HMG-CoA还原酶的活性位点分析及其抑制剂药效团模型的构建[J]. 计算机与应用化学 2011(11)
    • [27].CD59活性位点相关性基因突变的构建与表达[J]. 高技术通讯 2008(06)
    • [28].氧还原催化材料与催化机理及活性位点的研究进展[J]. 材料导报 2019(S1)
    • [29].串联反应纳米催化剂的设计:基于分步反应活性位点协调统一的氢转移反应活性提升(英文)[J]. Science China Materials 2019(09)
    • [30].氯过氧化物酶的研究及应用新进展[J]. 山西大同大学学报(自然科学版) 2014(02)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于数据挖掘算法的蛋白质相互作用及其活性位点研究
    下载Doc文档

    猜你喜欢