论文摘要
随着结构基因组的出现,通过结构进行生物功能预测已经发展成为结构生物学和生物信息学的主要目的之一。蛋白质的功能大体由它的三级结构决定的。研究蛋白质的结构有非常重要的意义,可以有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,了解蛋白质与蛋白质之间的相互作用,而且对生物学、医学和药学都有非常重要的作用。因此了解蛋白质的三级结构是了解其功能的前提。本文系统的介绍了蛋白质三级结构、蛋白质表示方法、柔性神经树以及集成学习的基本理论,在总结前人研究的基础上,提出了使用柔性神经树及其集成预测蛋白质三级结构,其中采用多表达式编程算法对柔性神经树树结构进行优化,模型中各个参数采用粒子群优化算法进行优化。集成学习采用了纠错输出编码,并且详细的对纠错输出编码的基本原理和结果决策方法进行了阐述,将多分类问题巧妙的转化成两分类问题,从而达到较好的预测结果。本文使用柔性神经树预测蛋白质三级结构主要分为三个阶段:蛋白质特征提取、建立预测模型和集成学习。(1)蛋白质特征提取。为了方便计算机更好的处理数据,首先要对蛋白质进行特征提取,即将蛋白质的氨基酸残基序列转化为输入空间向量的过程,也称为编码过程。特征的选取对于预测结果非常重要,目前常用的表示蛋白质特征的方法有主要有氨基酸组成模型(AA)、多肽组成模型、伪氨基酸组成(PseAA)、疏水模式等。本文重点运用伪氨基酸组成作为输入特征,并结合其它特征进行特征融合。实验表明使用伪氨基酸组成和其他特征的融合取得了较好的预测精度。(2)建立预测模型。柔性神经树克服了其它非线性模型存在的速度慢、网络结构不易调整等缺陷,具有以下优点:不需要事先设计网络的输入、输出和网络结构,柔性神经树模型可以自动的设计和优化网络结构和参数;各层之间的连接不必是完全的,允许跨层之间的连接;柔性神经树的进化结果通常要比一般神经网络结构简单、泛化推广效果好;本文选用柔性神经树作为预测模型,其中采用多表达式编程算法对柔性神经树结构进行优化,模型中各个参数采用粒子群优化算法进行优化。(3)为了进一步提高分类器的性能,最后将分类器进行集成学习。通过使用数据集C204和640进行结果验证表明集成学习对最后的预测精度有很大的提高。