论文摘要
在生物试验数据积累迅速增加的今天,如何将数据变为知识是一项极富挑战性又十分有趣的事情。因此,希望得到新的分析技术的生物学迅速与如日中天的信息技术相结合,催化了生物信息学的诞生。蛋白质序列信息的积累速度远快于蛋白质结构数据的增长速度,因此,人们非常希望能直接能从序列信息出发预测蛋白质结构。仅仅知道蛋白质结构还不够,人们最终想确定的是蛋白质的功能。因此,蛋白质结构与功能预测是生物信息学研究的重点任务之一。本文利用机器学习方法对蛋白质结构和功能预测中的几个分支问题进行了研究,本文主要工作包括:(1)提出了一个新的基于支持向量机的预测氢键α转角的方法。讨论了位置特异的进化信息和预测的二级结构信息对预测性能的影响。结果显示当使用相同的输入信息和使用相同的评价方法时,本方法表现出比目前最好的预测氢键α转角的方法更好的预测性能。当使用位置特异的进化信息和预测的二级结构信息作为输入,并使用相同的数据集和相同的5-折交叉验证,该方法取得的MCC为0.26,比到目前为止最好的方法取得的MCC值要高0.1。关于氢键α转角预测,我们还开发了AlphaTurn在线服务。此外,我们还比较了三种处理不平衡数据集的方法,提出用二阶段法来处理不平衡数据集。(2)在氢键α转角预测的基础上首次对广义α转角的预测进行研究。广义α转角的定义是第i个残基与第i+4个残基的α碳之间的距离小于6.5?,不一定包括氢键。该方法表现了良好的预测性能,多序列联配信息和预测的二级结构信息都有助于提高预测性能。综合多序列联配和预测的二级结构作为输入信息时,预测的MCC值达到0.415。因为依距离定义的α转角在蛋白质中的含量比氢键α转角高,所以依距离定义的α转角的预测性能优于氢键α转角。(3)首次开发一个基于支持向量机的从氨基酸序列出发预测π转角的可靠方法。使用进化信息(PSSMs)加上预测的二级结构信息作为输入时,SVM分类器达到最终的MCC为0.556。我们也注意到进化信息对π转角预测的贡献大于对β转角预测的贡献。因此,尽管π转角预测训练数据中正负样本数更不平衡,但π转角预测所取得的预测性能却高于β转角预测。关于π转角预测,我们还开发了PiTurn在线服务。此外,我们还计算了640个非同源蛋白中1931个π转角的位置特异的氨基酸出现的频率,这有助于π转角的设计。(4)综合使用支持向量机和PSSMs来预测蛋白质与RNA相互作用位点。我们考虑了两种情况,仅仅知道与RNA相互作用的蛋白质的序列信息和已知与RNA相互作用的蛋白质的结构信息。当仅已知序列信息时,最好的预测性能是使用PSSMs和预测的二级结构作为输入信息时得到的,MCC值是0.432,是目前从序列出发预测蛋白质与RNA相互作用位点最好的预测性能。进化信息对预测性能的提升起至关重要的作用。当已知与RNA相互作用的蛋白质的结构信息时,预测性能进一步提升。(5)使用了简单的信息离散性度量方法来区分β-桶形膜蛋白和球形蛋白。当l=2时,经过10-折交叉验证,识别β-桶形膜蛋白正确率是91%,识别球形蛋白的正确率是86%。它还能正确识别跨膜α螺旋蛋白,识别正确率为89%。此外,我们还用简并的氨基酸字符集测试了该方法。当氨基酸字符集减少到15、12和10时,总正确率下降的很少。这说明识别β-桶形膜蛋白和球形蛋白所需的最小信息是10个字符。当用相同的数据集测试时,信息离散性度量方法比以前的方法取得了更好的MCC值。
论文目录
相关论文文献
- [1].智能学习算法的预测性能评估[J]. 职业技术 2012(10)
- [2].DERF2.0模式对月尺度西太平洋副热带高压预测能力评估[J]. 气象 2017(10)
- [3].万古霉素群体药代动力学模型在不同人群中的预测性能[J]. 中国临床药理学杂志 2019(06)
- [4].结合支持向量机和贝叶斯方法进行蛋白质二级结构预测[J]. 生物信息学 2010(01)
- [5].基于聚类分析的复杂网络链路预测性能研究[J]. 计算技术与自动化 2019(04)
- [6].预测模型推荐方法研究[J]. 福建电脑 2009(09)
- [7].C5.0决策树与RBF神经网络模型用于急性缺血性脑卒中出血性转化的风险预测性能比较[J]. 中华疾病控制杂志 2019(02)
- [8].跨媒体复现中CIECAM02背景预测性能评价[J]. 电子学报 2015(10)
- [9].MODES月预测产品在贵州的释用[J]. 气象科技 2017(06)
- [10].RS-BART:一种提升贝叶斯可加回归树预测性能的新方法(英文)[J]. 工程数学学报 2019(04)
- [11].基于球边界的不平衡数据分类方法[J]. 计算机应用 2008(04)
- [12].铁路风速单步高精度混合预测性能对比研究[J]. 铁道学报 2016(08)
- [13].基于特征选择的神经网络集成研究[J]. 微计算机信息 2012(09)
- [14].万古霉素群体药代动力学模型在临床应用中的预测性能的评估[J]. 中国临床药理学杂志 2018(06)
- [15].LTE频段室内传播预测性能提升方法[J]. 移动通信 2015(23)
- [16].三种生物信息学软件对癫痫相关SCN1B错义突变的预测性能评估[J]. 临床医学工程 2019(06)
- [17].基于向前和向后间隔偏最小二乘的特征光谱选择方法(英文)[J]. 光谱学与光谱分析 2016(02)
- [18].基于演化数据的软件缺陷预测性能改进[J]. 软件学报 2016(12)
- [19].基于卡尔曼滤波的风速序列短期预测方法[J]. 电工技术学报 2014(02)
- [20].北美重载运输用可预测性能转向架的开发[J]. 国外铁道车辆 2016(02)
- [21].基于RVM模型的国内游客流量预测研究——以海南为例[J]. 数学的实践与认识 2017(24)
- [22].用径向基神经网络预测奋乃静的稳态血药浓度[J]. 中国临床药理学杂志 2010(11)
- [23].基于迟滞神经网络的风速时间序列预测[J]. 天津工业大学学报 2012(04)
- [24].基于改进神经网络的煤灰熔点预测方法[J]. 工业控制计算机 2011(05)
- [25].圆管通道内超临界水湍流模型的统计评价研究[J]. 核动力工程 2017(04)
- [26].基于粗糙集-支持向量机的软件缺陷预测[J]. 计算机工程与科学 2015(01)
- [27].加权函数对变量筛选结果的影响[J]. 世界科学技术(中医药现代化) 2012(04)
- [28].电视与广播[J]. 中国无线电电子学文摘 2008(04)
- [29].基于近红外漫反射光谱的多品种桃可溶性固形物的无损检测[J]. 西北农林科技大学学报(自然科学版) 2014(02)
- [30].基于混沌不稳定周期方法的风速时间序列预测[J]. 东南大学学报(自然科学版) 2012(S1)
标签:转角论文; 桶形膜蛋白论文; 蛋白质与相互作用论文; 机器学习论文; 支持向量机论文; 信息离散性度量方法论文;