机器学习在蛋白质结构和功能预测中的应用研究

机器学习在蛋白质结构和功能预测中的应用研究

论文摘要

在生物试验数据积累迅速增加的今天,如何将数据变为知识是一项极富挑战性又十分有趣的事情。因此,希望得到新的分析技术的生物学迅速与如日中天的信息技术相结合,催化了生物信息学的诞生。蛋白质序列信息的积累速度远快于蛋白质结构数据的增长速度,因此,人们非常希望能直接能从序列信息出发预测蛋白质结构。仅仅知道蛋白质结构还不够,人们最终想确定的是蛋白质的功能。因此,蛋白质结构与功能预测是生物信息学研究的重点任务之一。本文利用机器学习方法对蛋白质结构和功能预测中的几个分支问题进行了研究,本文主要工作包括:(1)提出了一个新的基于支持向量机的预测氢键α转角的方法。讨论了位置特异的进化信息和预测的二级结构信息对预测性能的影响。结果显示当使用相同的输入信息和使用相同的评价方法时,本方法表现出比目前最好的预测氢键α转角的方法更好的预测性能。当使用位置特异的进化信息和预测的二级结构信息作为输入,并使用相同的数据集和相同的5-折交叉验证,该方法取得的MCC为0.26,比到目前为止最好的方法取得的MCC值要高0.1。关于氢键α转角预测,我们还开发了AlphaTurn在线服务。此外,我们还比较了三种处理不平衡数据集的方法,提出用二阶段法来处理不平衡数据集。(2)在氢键α转角预测的基础上首次对广义α转角的预测进行研究。广义α转角的定义是第i个残基与第i+4个残基的α碳之间的距离小于6.5?,不一定包括氢键。该方法表现了良好的预测性能,多序列联配信息和预测的二级结构信息都有助于提高预测性能。综合多序列联配和预测的二级结构作为输入信息时,预测的MCC值达到0.415。因为依距离定义的α转角在蛋白质中的含量比氢键α转角高,所以依距离定义的α转角的预测性能优于氢键α转角。(3)首次开发一个基于支持向量机的从氨基酸序列出发预测π转角的可靠方法。使用进化信息(PSSMs)加上预测的二级结构信息作为输入时,SVM分类器达到最终的MCC为0.556。我们也注意到进化信息对π转角预测的贡献大于对β转角预测的贡献。因此,尽管π转角预测训练数据中正负样本数更不平衡,但π转角预测所取得的预测性能却高于β转角预测。关于π转角预测,我们还开发了PiTurn在线服务。此外,我们还计算了640个非同源蛋白中1931个π转角的位置特异的氨基酸出现的频率,这有助于π转角的设计。(4)综合使用支持向量机和PSSMs来预测蛋白质与RNA相互作用位点。我们考虑了两种情况,仅仅知道与RNA相互作用的蛋白质的序列信息和已知与RNA相互作用的蛋白质的结构信息。当仅已知序列信息时,最好的预测性能是使用PSSMs和预测的二级结构作为输入信息时得到的,MCC值是0.432,是目前从序列出发预测蛋白质与RNA相互作用位点最好的预测性能。进化信息对预测性能的提升起至关重要的作用。当已知与RNA相互作用的蛋白质的结构信息时,预测性能进一步提升。(5)使用了简单的信息离散性度量方法来区分β-桶形膜蛋白和球形蛋白。当l=2时,经过10-折交叉验证,识别β-桶形膜蛋白正确率是91%,识别球形蛋白的正确率是86%。它还能正确识别跨膜α螺旋蛋白,识别正确率为89%。此外,我们还用简并的氨基酸字符集测试了该方法。当氨基酸字符集减少到15、12和10时,总正确率下降的很少。这说明识别β-桶形膜蛋白和球形蛋白所需的最小信息是10个字符。当用相同的数据集测试时,信息离散性度量方法比以前的方法取得了更好的MCC值。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 引言
  • 1.2 蛋白质结构层次
  • 1.3 蛋白质结构预测进展
  • 1.3.1 蛋白质二级结构预测进展
  • 1.4 蛋白质功能预测进展
  • 1.5 常用的蛋白质结构和序列数据库
  • 1.5.1 蛋白质序列数据库
  • 1.5.2 蛋白质结构数据库
  • 1.6 本文主要研究内容
  • 2 分类器设计及性能评价方法
  • 2.1 引言
  • 2.2 支持向量机
  • 2.2.1 最优分类面
  • 2.2.2 核与特征空间
  • 2.2.3 软间隔优化
  • 2.3 信息离散性度量方法
  • 2.4 分类器性能评价
  • 2.5 本章小结
  • 3 氢键α转角预测
  • 3.1 引言
  • 3.2 试验数据和方法
  • 3.2.1 试验数据
  • 3.2.2 PSI-BLAST 谱
  • 3.2.3 输入特征编码策略
  • 3.2.4 预测的可信度
  • 3.2.5 预测后过滤
  • 3.2.6 预测性能评价参数
  • 3.3 结论与讨论
  • 3.3.1 α转角位置特异的氨基酸倾向性研究及类别分析
  • 3.3.2 核函数选取与参数优化
  • 3.3.3 处理两类样本不均衡
  • 3.3.4 预测体系结构
  • 3.3.5 PSSMs 和二级结构信息对预测性能的影响
  • 3.3.6 与其它预测方法的比较
  • 3.3.7 AlphaTurn 网络服务
  • 3.4 本章小结
  • 4 广义α转角预测
  • 4.1 引言
  • 4.2 材料与方法
  • 4.2.1 数据集
  • 4.2.2 支持向量机
  • 4.2.3 输入特征编码策略
  • 4.2.4 预测后过滤
  • 4.2.5 预测性能评价参数
  • 4.3 结果与讨论
  • 4.3.1 核函数选取与参数优化
  • 4.3.2 处理两类样本不均衡
  • 4.3.3 不同编码策略对预测性能的影响
  • 4.4 本章小结
  • 5 π转角预测研究
  • 5.1 引言
  • 5.2 材料与方法
  • 5.2.1 数据集
  • 5.2.2 编码策略
  • 5.2.3 预测后过滤
  • 5.3 预测的可信度
  • 5.3.1 预测性能评价参数
  • 5.4 结果与讨论
  • 5.4.1 π转角位置特异的氨基酸倾向性研究及类别分析
  • 5.4.2 核函数选取与参数优化
  • 5.4.3 窗口长度优化
  • 5.4.4 处理两类样本不均衡
  • 5.4.5 不同编码策略对预测性能的影响
  • 5.5 PITURN 网络服务
  • 5.6 本章小结
  • 6 蛋白质与RNA 相互作用位点预测
  • 6.1 引言
  • 6.2 实验数据
  • 6.3 编码
  • 6.4 预测性能评价
  • 6.5 结果与讨论
  • 6.5.1 RNA 结合位点的序列特征
  • 6.5.2 预测系统的参数优化
  • 6.5.3 窗口长度的优化
  • 6.5.4 不同的编码策略对预测性能的影响
  • 6.5.5 与其它预测方法的比较
  • 6.5.6 网络服务
  • 6.6 本章小结
  • 7 β-桶形膜蛋白和球形蛋白的识别研究
  • 7.1 引言
  • 7.2 材料和方法
  • 7.2.1 数据集
  • 7.2.2 信息离散性度量方法
  • 7.2.3 预测正确率的度量
  • 7.3 结果与讨论
  • 7.3.1 基于普通氨基酸字符集的分析
  • 7.3.2 基于简并氨基酸字符集的分析
  • 7.3.3 与其它方法的比较
  • 7.4 本章小结
  • 8 总结与展望
  • 8.1 全文总结
  • 8.2 研究展望
  • 致谢
  • 参考文献
  • 附录1 发表或录用论文
  • 附录2 攻读学位期间参与的科研课题
  • 附表
  • 相关论文文献

    • [1].智能学习算法的预测性能评估[J]. 职业技术 2012(10)
    • [2].DERF2.0模式对月尺度西太平洋副热带高压预测能力评估[J]. 气象 2017(10)
    • [3].万古霉素群体药代动力学模型在不同人群中的预测性能[J]. 中国临床药理学杂志 2019(06)
    • [4].结合支持向量机和贝叶斯方法进行蛋白质二级结构预测[J]. 生物信息学 2010(01)
    • [5].基于聚类分析的复杂网络链路预测性能研究[J]. 计算技术与自动化 2019(04)
    • [6].预测模型推荐方法研究[J]. 福建电脑 2009(09)
    • [7].C5.0决策树与RBF神经网络模型用于急性缺血性脑卒中出血性转化的风险预测性能比较[J]. 中华疾病控制杂志 2019(02)
    • [8].跨媒体复现中CIECAM02背景预测性能评价[J]. 电子学报 2015(10)
    • [9].MODES月预测产品在贵州的释用[J]. 气象科技 2017(06)
    • [10].RS-BART:一种提升贝叶斯可加回归树预测性能的新方法(英文)[J]. 工程数学学报 2019(04)
    • [11].基于球边界的不平衡数据分类方法[J]. 计算机应用 2008(04)
    • [12].铁路风速单步高精度混合预测性能对比研究[J]. 铁道学报 2016(08)
    • [13].基于特征选择的神经网络集成研究[J]. 微计算机信息 2012(09)
    • [14].万古霉素群体药代动力学模型在临床应用中的预测性能的评估[J]. 中国临床药理学杂志 2018(06)
    • [15].LTE频段室内传播预测性能提升方法[J]. 移动通信 2015(23)
    • [16].三种生物信息学软件对癫痫相关SCN1B错义突变的预测性能评估[J]. 临床医学工程 2019(06)
    • [17].基于向前和向后间隔偏最小二乘的特征光谱选择方法(英文)[J]. 光谱学与光谱分析 2016(02)
    • [18].基于演化数据的软件缺陷预测性能改进[J]. 软件学报 2016(12)
    • [19].基于卡尔曼滤波的风速序列短期预测方法[J]. 电工技术学报 2014(02)
    • [20].北美重载运输用可预测性能转向架的开发[J]. 国外铁道车辆 2016(02)
    • [21].基于RVM模型的国内游客流量预测研究——以海南为例[J]. 数学的实践与认识 2017(24)
    • [22].用径向基神经网络预测奋乃静的稳态血药浓度[J]. 中国临床药理学杂志 2010(11)
    • [23].基于迟滞神经网络的风速时间序列预测[J]. 天津工业大学学报 2012(04)
    • [24].基于改进神经网络的煤灰熔点预测方法[J]. 工业控制计算机 2011(05)
    • [25].圆管通道内超临界水湍流模型的统计评价研究[J]. 核动力工程 2017(04)
    • [26].基于粗糙集-支持向量机的软件缺陷预测[J]. 计算机工程与科学 2015(01)
    • [27].加权函数对变量筛选结果的影响[J]. 世界科学技术(中医药现代化) 2012(04)
    • [28].电视与广播[J]. 中国无线电电子学文摘 2008(04)
    • [29].基于近红外漫反射光谱的多品种桃可溶性固形物的无损检测[J]. 西北农林科技大学学报(自然科学版) 2014(02)
    • [30].基于混沌不稳定周期方法的风速时间序列预测[J]. 东南大学学报(自然科学版) 2012(S1)

    标签:;  ;  ;  ;  ;  ;  

    机器学习在蛋白质结构和功能预测中的应用研究
    下载Doc文档

    猜你喜欢