论文摘要
MHC(Major Histocompatibility Complex)分子主要参与抗原的提呈,其与抗原短肽的结合是免疫应答中提呈抗原时必不可少的一步。能与MHC分了绑定结合的抗原肽,被称为MHC分子亲和肽。MHC分子亲和肽的精确预测对于免疫学家和医学工作者意义重大。一方面,在理论上有助于我们理清免疫识别和免疫应答的潜在机制;另一方面,在实际应用中能够帮助确定T细胞表位,从而指导表位疫苗的设计和研制,帮助治疗许多重大疾病。亲和肽只是抗原蛋白所产生的海量短肽中极小的一部分,研究计算预测方法,借助计算机进行辅助预测,显得尤为重要。与免疫应答有关的MHC有Ⅰ和Ⅱ两类。由于MHC II类分子有上千种绑定特性各异的亚型,加之Ⅱ类亲和肽的长度不定,所以预测起来更有难度和挑战性。采用生化实验方法测定每个MHC分子的亲和肽集合需要耗费大量时间和金钱故不可行。基于当前有限的生物实验数据,MHC II类亲和肽跨亚型计算预测因此成为当前免疫信息学上的一个研究热点。跨亚型预测方法理论上可以预测所有MHC分子的亲和肽。为了研究这些跨亚型预测方法的性能提升空间和可用性,本文详细地比较了目前已知的跨亚型预测方法及其在线服务器。首先提出了一个跨亚型预测方法的一般框架;然后,我们进一步比较了它们的算法策略和相关在线服务器的功能;最后,我们讨论了提高跨亚型预测性能的策略和前进方向。基于之前的研究综述和发展方向,我们将已广泛应用的MHC Ⅱ类亲和肽预测方法TEPITOPE基于Pocket相似度发展为可预测700多个HLA-DR类亲和肽的新方法TEPITOPEpan。该方法继承了TEPITOPE优秀的解释性和良好的预测性能,在计算时间效率、绑定基序一致性、九肽表位和绑定核心预测上,与代表当前最高水平的NetMHCIIpan相比,表现出更好的优越性能。为了进一步提高MHC II类亲和肽的预测性能,本文基于AvgTanh对已有的跨业型预测方法进行集成学习,得到预测性能显著提高的MetaMHCIIpan。此外,本文还规范了数据从源到实验数据集的处理方法,并提出了多个标准数据集;所提方法均有公开在线预测服务器相配套,既有理论研究,也有应用实践;文中在介绍各个部分时,均有要点小结,并在最后讨论分析了当前工作的主要不足及前进方向。