论文摘要
蛋白质组学是生物信息学的主要研究领域之一。膜蛋白作为被广泛利用的药物靶,是蛋白质组学的重要研究对象。膜蛋白家族中的外膜蛋白,定位于革兰氏阴性细菌、叶绿体和线粒体的外膜,折叠成桶状的跨膜结构,是两类主要的跨膜蛋白之一。外膜蛋白与革兰氏阴性细菌致病性和免疫功能密切相关,是极具研究价值的药物靶,并且参与非特异性调控、物质运输和选择性离子通道形成等物理化学过程。本文以外膜蛋白生物信息学研究为主题,通过对蛋白质序列编码方法、分类算法、结构预测模型的改进和创新,来提高外膜蛋白序列、结构辨识水平,并解决与此相关的部分问题。论文主要研究内容和创新点如下:(1)外膜蛋白序列辨识和基因组挖掘方法研究研究从其它蛋白质折叠类型中辨识外膜蛋白的方法,主要目的是:应用于基因组内挖掘新的外膜蛋白及其对应的编码基因;为序列分析和结构预测积累新的数据。本文利用分散量理论,提出了基于最小分散增量的外膜蛋白序列辨识方法,并进一步改进为多分散增量预测结果加权投票预测方法。该方法为蛋白质序列辨识提供了易实现和易推广到多类问题的新手段。此外,为满足基因组挖掘外膜蛋白的需要,提出了蛋白质序列多种联合特征编码方法,在联合特征中引入加权的氨基酸指数相关系数特征,并将优选的特征编码方法和支持向量机分类算法结合来建立分类器。无论是数据集上测试还是基因组内挖掘,该方法都达到了目前最好的预测水平,成为有效的外膜蛋白挖掘工具。此外,文章还利用特征选择技术分析了高维联合特征的优化问题,采用过滤方法筛选有效的特征子集,提高了计算速度乃至预测效果。(2)多类蛋白质分类算法研究支持向量机是具备优异泛化性能的机器学习技术,但是没有很好地解决多类分类问题,存在诸如分类盲区、误差累积等缺点。模糊支持向量机的出现为改进这些缺点提供了新手段。本文采用基于样本紧密度的模糊隶属度计算方法,并同时计算样本作为正例和作为反例的双份误差,重构了支持向量机的最优分类面,建立了“一对一”方式和有向图方式的双向模糊分类器。在解决膜蛋白分类问题时,该分类算法降低了对孤立点和噪声点的敏感性,一定程度上改善了分类效果,是模糊多类支持向量机的新发展。(3)外膜蛋白信号肽和拓扑结构联合预测方法研究跨膜蛋白拓扑结构预测的意义在于:一是提供从二级结构推测其三级结构的模型框架;二是有利于对二级和三级结构进行修正。现有的外膜蛋白拓扑预测方法,在应用于前体序列预测时,没有提供预测信号肽的功能,并且由于信号肽的影响,拓扑预测性能会下降。本文应用隐Markov模型理论,建立了外膜蛋白前体序列信号肽和拓扑结构联合预测模型,使得在模型中信号肽成为拓扑结构的一部分,并利用最新的知识优化模型结构。该预测模型具备了目前最好的外膜蛋白拓扑预测性能,并成为集信号肽剪切位点预测、拓扑预测和序列辨识功能于一体的便利工具。(4)跨膜蛋白亚细胞定位预测方法研究现有的大部分蛋白质亚细胞定位预测方法,针对水溶性蛋白的特性而设计,不能有效预测跨膜蛋白的亚细胞位置。而基于隐Markov模型的拓扑结构预测方法,虽然利用了跨膜拓扑信息,但是没有提供亚细胞定位预测功能。本文对跨膜蛋白拓扑预测模型进行改造,使之成为亚细胞定位预测工具,在预测细胞分泌路径上跨膜蛋白的亚细胞位置时,具有显著高于普通预测方法的性能,填补了跨膜蛋白亚细胞定位预测的空白,并且为拓扑预测器开辟了新的应用方向。(5)调控外膜蛋白的非编码小RNA预测方法研究非编码小RNA预测是具有重大生物学价值的难点问题。目前还没有专门预测调控某一类蛋白质的非编码小RNA的方法。本文提出了主成分分析-神经网络预测模型。该模型通过主成分分析去除特征相关、降低特征维数,改善了神经网络预测器的性能,成为辨识细菌非编码小RNA的有效工具;此外,考虑到碱基配对是非编码小RNA与外膜蛋白mRNA作用的主要方式,设计了两级筛选系统预测调控外膜蛋白的非编码小RNA。该系统通过碱基配对打分函数来搜索基因组内与已知外膜蛋白mRNA以高分值进行配对的非编码区域,然后利用主成分分析-神经网络预测模型过滤搜索结果中的大部分冗余。其优点是可以降低实验筛选的成本,并提供少冗余的实验对象。
论文目录
相关论文文献
标签:蛋白质组学论文; 生物信息学论文; 外膜蛋白论文; 机器学习论文; 分散量论文; 支持向量机论文; 隐模型论文; 非编码小论文;