外膜蛋白序列和结构辨识相关问题研究

论文摘要

蛋白质组学是生物信息学的主要研究领域之一。膜蛋白作为被广泛利用的药物靶,是蛋白质组学的重要研究对象。膜蛋白家族中的外膜蛋白,定位于革兰氏阴性细菌、叶绿体和线粒体的外膜,折叠成桶状的跨膜结构,是两类主要的跨膜蛋白之一。外膜蛋白与革兰氏阴性细菌致病性和免疫功能密切相关,是极具研究价值的药物靶,并且参与非特异性调控、物质运输和选择性离子通道形成等物理化学过程。本文以外膜蛋白生物信息学研究为主题,通过对蛋白质序列编码方法、分类算法、结构预测模型的改进和创新,来提高外膜蛋白序列、结构辨识水平,并解决与此相关的部分问题。论文主要研究内容和创新点如下：（1）外膜蛋白序列辨识和基因组挖掘方法研究研究从其它蛋白质折叠类型中辨识外膜蛋白的方法,主要目的是：应用于基因组内挖掘新的外膜蛋白及其对应的编码基因；为序列分析和结构预测积累新的数据。本文利用分散量理论,提出了基于最小分散增量的外膜蛋白序列辨识方法,并进一步改进为多分散增量预测结果加权投票预测方法。该方法为蛋白质序列辨识提供了易实现和易推广到多类问题的新手段。此外,为满足基因组挖掘外膜蛋白的需要,提出了蛋白质序列多种联合特征编码方法,在联合特征中引入加权的氨基酸指数相关系数特征,并将优选的特征编码方法和支持向量机分类算法结合来建立分类器。无论是数据集上测试还是基因组内挖掘,该方法都达到了目前最好的预测水平,成为有效的外膜蛋白挖掘工具。此外,文章还利用特征选择技术分析了高维联合特征的优化问题,采用过滤方法筛选有效的特征子集,提高了计算速度乃至预测效果。（2）多类蛋白质分类算法研究支持向量机是具备优异泛化性能的机器学习技术,但是没有很好地解决多类分类问题,存在诸如分类盲区、误差累积等缺点。模糊支持向量机的出现为改进这些缺点提供了新手段。本文采用基于样本紧密度的模糊隶属度计算方法,并同时计算样本作为正例和作为反例的双份误差,重构了支持向量机的最优分类面,建立了“一对一”方式和有向图方式的双向模糊分类器。在解决膜蛋白分类问题时,该分类算法降低了对孤立点和噪声点的敏感性,一定程度上改善了分类效果,是模糊多类支持向量机的新发展。（3）外膜蛋白信号肽和拓扑结构联合预测方法研究跨膜蛋白拓扑结构预测的意义在于：一是提供从二级结构推测其三级结构的模型框架；二是有利于对二级和三级结构进行修正。现有的外膜蛋白拓扑预测方法,在应用于前体序列预测时,没有提供预测信号肽的功能,并且由于信号肽的影响,拓扑预测性能会下降。本文应用隐Markov模型理论,建立了外膜蛋白前体序列信号肽和拓扑结构联合预测模型,使得在模型中信号肽成为拓扑结构的一部分,并利用最新的知识优化模型结构。该预测模型具备了目前最好的外膜蛋白拓扑预测性能,并成为集信号肽剪切位点预测、拓扑预测和序列辨识功能于一体的便利工具。（4）跨膜蛋白亚细胞定位预测方法研究现有的大部分蛋白质亚细胞定位预测方法,针对水溶性蛋白的特性而设计,不能有效预测跨膜蛋白的亚细胞位置。而基于隐Markov模型的拓扑结构预测方法,虽然利用了跨膜拓扑信息,但是没有提供亚细胞定位预测功能。本文对跨膜蛋白拓扑预测模型进行改造,使之成为亚细胞定位预测工具,在预测细胞分泌路径上跨膜蛋白的亚细胞位置时,具有显著高于普通预测方法的性能,填补了跨膜蛋白亚细胞定位预测的空白,并且为拓扑预测器开辟了新的应用方向。（5）调控外膜蛋白的非编码小RNA预测方法研究非编码小RNA预测是具有重大生物学价值的难点问题。目前还没有专门预测调控某一类蛋白质的非编码小RNA的方法。本文提出了主成分分析-神经网络预测模型。该模型通过主成分分析去除特征相关、降低特征维数,改善了神经网络预测器的性能,成为辨识细菌非编码小RNA的有效工具；此外,考虑到碱基配对是非编码小RNA与外膜蛋白mRNA作用的主要方式,设计了两级筛选系统预测调控外膜蛋白的非编码小RNA。该系统通过碱基配对打分函数来搜索基因组内与已知外膜蛋白mRNA以高分值进行配对的非编码区域,然后利用主成分分析-神经网络预测模型过滤搜索结果中的大部分冗余。其优点是可以降低实验筛选的成本,并提供少冗余的实验对象。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 引言

1.2 研究背景

1.2.1 外膜蛋白数据库的建立和完善

1.2.2 外膜蛋白序列辨识的相关研究

1.2.3 外膜蛋白结构预测的相关研究

1.2.4 外膜蛋白折叠过程的相关研究

1.2.5 外膜蛋白表达调控的相关研究

1.3 论文的研究内容与创新点

1.3.1 主要研究内容

1.3.2 主要创新性工作

1.4 论文的结构

第二章外膜蛋白生物学基础及统计学分析

2.1 引言

2.2 外膜蛋白质简介

2.2.1 氨基酸与蛋白质

2.2.2 蛋白质结构

2.2.3 生物膜与膜蛋白

2.2.4 外膜与外膜蛋白质

2.3 外膜蛋白质序列分析

2.3.1 序列数据集及相似度聚类

2.3.2 序列特征分析

2.4 外膜蛋白质结构分析

2.4.1 结构数据集

2.4.2 结构描述

2.4.3 β-桶角度模型

2.4.4 氨基酸残基在β-桶不同区域的统计特性

2.5 小结

第三章基于分散量理论辨识外膜蛋白序列

3.1 概述

3.2 分散量理论

3.3 数据与方法

3.3.1 数据集

3.3.2 最小分散增量预测方法

3.3.3 多分散量辨识结果投票预测方法

3.3.4 数据标准化方法

3.3.5 预测性能评价标准

3.4 实验结果与讨论

3.4.1 四种分散量的预测结果

3.4.2 无加权投票预测结果

3.4.3 加权投票预测结果

3.4.4 和其它方法比较

3.4.5 两类问题向多类问题的推广

3.5 小结

第四章基于SVM的外膜蛋白基因组内挖掘

4.1 概述

4.2 支持向量机理论

4.2.1 最优分类面

4.2.2 广义最优分类面

4.2.3 核函数

4.2.4 参数选择方法

4.3 蛋白质序列联合特征编码

4.4 实验结果和讨论

4.4.1 数据集

4.4.2 性能评价标准

4.4.3 基于网格搜索的参数选择

4.4.4 数据集上预测结果和讨论

4.4.5 基因组内挖掘结果和讨论

4.4.6 相关系数权值和阶次对预测性能的影响

4.5 联合特征编码方法的改进:特征选择

4.5.1 特征选择概述

4.5.2 特征选择准则

4.5.3 特征子集选择

4.5.4 蛋白质序列特征选择方法

4.5.5 特征选择对预测性能的影响

4.6 分类算法的改进:模糊支持向量机

4.6.1 现有的多类支持向量机算法

4.6.2 模糊支持向量机

4.6.3 双向模糊多类支持向量机

4.6.4 实验结果和讨论

4.7 小结

第五章联合预测外膜蛋白信号肽和拓扑结构

5.1 概述

5.2 HMM的基本理论

5.2.1 HMM的定义

5.2.2 HMM的基本算法

5.2.3 HMM的数值稳定性

5.3 信号肽和拓扑结构联合预测模型

5.3.1 结构单元统计分析

5.3.2 HMM模型的构建

5.3.3 模型的训练

5.3.4 1-best解码算法

5.3.5 预测性能评价标准

5.4 实验结果和讨论

5.4.1 拓扑结构预测结果

5.4.2 信号肽预测结果

5.4.3 和其它方法的比较

5.5 跨膜蛋白亚细胞定位预测

5.5.1 数据与方法

5.5.2 性能评价标准

5.5.3 预测结果和讨论

5.6 小结

第六章两级筛选法预测调控外膜蛋白的小RNA

6.1 概述

6.2 主成分分析原理

6.3 BP神经网络理论

6.3.1 典型BP神经网络的特点和构造

6.3.2 典型BP网络的学习算法

6.3.3 Levenberg-Marquardt学习算法

6.4 基于PCA-NN的sRNA预测模型

6.4.1 数据集和特征提取

6.4.2 主成分分析结果

6.4.3 神经网络设计和训练

6.4.4 实验结果和讨论

6.5 两级筛选法预测调控外膜蛋白的sRNA

6.5.1 初级筛选方法和结果

6.5.2 次级筛选方法和结果

6.6 潜在的sRNA-OMP调控网络

6.7 小结

第七章结束语

7.1 总结

7.2 未来工作展望

致谢

参考文献表

作者在学期间取得的学术成果

外膜蛋白序列和结构辨识相关问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢