论文摘要
抗菌肽(antimicrobial peptide, AMP)是由20-50多个氨基酸残基组成的、具抗微生物活性的肽类的总称,现已在细菌、真菌、昆虫等中分离、纯化到上千种抗菌肽。抗菌肽具分子质量小、热稳定性好、抗菌谱广甚至抗病毒及抗肿瘤的特点,作用机理迥异于传统抗生素不易产生耐药性。因其在农业(抗病转基因植物)和药用(克服日益严重的抗生素耐药问题、开发新型抗病毒及抗肿瘤药物)等领域的广泛应用前景,抗菌肽受到国内外的极大关注。但与传统抗生素相比,多数抗菌肽的抗菌活性还不够理想因而用量较大成本较高。多肽和蛋白质的空间结构与功能由其一级结构(氨基酸序列)决定,高级结构甚难测定而一级结构简便易得。因此,用定量序效模型(Quantitative Sequence-Activity Model,QSAM)取代定量构效关系(Quantitative Structure-Activity Relationship,QSAR),有目的地改造已有抗菌肽、设计新抗菌肽分子意义重大。假定欲设计的抗菌肽长为30个氨基酸残基,则理论上共有2030种可能(不含非天然氨基酸),显然不可能全部合成再生物测定验证。抗菌肽QSAM的最终目的就是从已有的少量实验数据出发,建模预测出少量高活性(仅仅是预测)的多肽,合成后生测验证;因此QSAM模型独立预测准确性决定成败。多肽QSAM涉及三个关键环节:描述符的获取,描述符的选择,回归模型的选择。由于描述子与多肽活性间的复杂非线性关系,传统的多元线性回归、偏最小二乘回归等线性模型解析能力有限;基于结构风险最小的支持向量机(Support Vector Machine, SVM)以统计学习理论为基础,较好地解决了局部最小、过学习、非线性等问题,泛化能力优异。因此,本文采用SVM为基本建模工具。无关、冗余描述符会影响模型预测精度,描述符选择与回归模型选择常常藕联,在QSAM中逐步线性回归模型线性筛选描述符效果不佳。本实验室前期基于支持向量回归(Support Vector Regression, SVR)发展了一种非线性变量精细筛选方法-多轮末尾淘汰法,每轮依均方误差(Mean Squared Error, MSE)最小原则非线性地筛去一个最差的描述符。但当描述符个数很大时,多轮末尾淘汰法极为耗时。进一步,本实验室前期基于SVR发展了高维变量快速非线性筛选法,较好地解决了这一问题。因此,本文的重点是描述符的获取,即多肽结构的表征。本文针对传统氨基酸描述子Z-scales、ISA-ECI、MS-WHIM scores等不能表征肽序列的上下文关联(而上下文关联对肽的活性影响很大)、稳定性欠佳等缺陷,将多肽中的各氨基酸残基整体考虑,构建了两种新的多肽结构描述子GS-AA531和GS-AA531-MSCC。氨基酸残基指数数据库中每一残基有531种理化性质值(AA531),对等长(假定为n)的肽体系,每条肽用AA531串联表征可得n×531个描述子。GS-AA531是基于地统计学(Geostatistics, GS)半变异函数得到的反映序列关联特征的描述子,一个长为n的多肽,每种性质可用(n-1)个半方差表征,共有(n-1)×531个描述子。多尺度组分与关联(Multi-scale Component and Correlation, MSCC)反映序列在多个尺度上的残基组成、在多个尺度上的残基关联特征,GS-AA531-MSCC是GS-AA531与MSCC的综合。对肥大细胞脱粒抗菌肽类似物数据集(25条抗菌肽、每肽14个残基),依次采用AA531、GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、6903、7372个描述子,高维特征非线性快速筛选后获得45、15、16个描述子,多轮末尾淘汰精细筛选后最终获得20、12、11个保留描述子用于建模,SVR模型拟合(内部)决定系数R2分别为0.959、0.997、0.995,独立预测(外部)Qext2,分别为0.357、0.693、0.620。GS-AA531和GS-AA531-MSCC表征明显优于AA531表征。对CameL-s抗菌肽数据集(101条抗菌肽、每肽15个残基),依次采用GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、7910个描述子,高维特征非线性快速筛选后获得22、18个描述子,多轮末尾淘汰精细筛选后最终获得17、13个保留描述子用于建模,SVR模型拟合R2分别为0.717、0.726,独立预测Qext2,分别为0.716、0.708。GS-AA531和GS-AA531-MSCC表征的SVR模型明显优于参比文献报道模型。两个抗菌肽数据体系QSAM研究表明,GS-AA531和GS-AA531-MSCC是两种新的有效的多肽结构表征方法,且GS-AA531表征更为稳健。GS-AA531表征结合高维特征非线性快速筛选、多轮末尾淘汰精细筛选在多肽QSAM中有较大应用前景。
论文目录
相关论文文献
- [1].基于深度学习的局部描述符[J]. 电子制作 2019(02)
- [2].可组合的描述符泄露类型检查[J]. 计算机科学 2015(10)
- [3].局部图像描述符最新研究进展[J]. 中国图象图形学报 2015(09)
- [4].噪声不敏感的柱状图特征描述符及其在图像检索中的应用[J]. 计算机科学 2016(01)
- [5].基于方向描述符的物体检测[J]. 光电工程 2014(03)
- [6].不同局部邻域划分加速鲁棒特征描述符的性能分析[J]. 光学精密工程 2013(09)
- [7].一种旋转不变特征描述符[J]. 光电子.激光 2010(06)
- [8].定量构效关系研究中分子描述符的相关性[J]. 计算机与应用化学 2009(11)
- [9].基于卷积神经网络的局部图像特征描述符算法[J]. 上海航天(中英文) 2020(01)
- [10].基于形状描述符和孪生神经网络的纹理分割算法[J]. 微电子学与计算机 2020(04)
- [11].芳烃分子描述符的修正和沸点预测建模[J]. 化工学报 2019(11)
- [12].基于梯度信息描述符的图像匹配算法[J]. 激光与光电子学进展 2020(14)
- [13].利用密度描述符对应的视觉跟踪算法[J]. 西安交通大学学报 2014(09)
- [14].1553B总线远程终端描述符栈的研究与应用[J]. 空间电子技术 2014(02)
- [15].血管性痴呆患者脑电信号的多通道线性描述符特征研究[J]. 西安交通大学学报 2011(04)
- [16].结构上下文:一种新的物体类别描述符[J]. 计算机科学与探索 2010(04)
- [17].颜色描述符提取算法在图像检索算法中的应用[J]. 科技资讯 2015(08)
- [18].城镇绿地树种识别的数学描述符[J]. 遥感学报 2011(03)
- [19].均值描述符:一种紧的三维模型多特征表示[J]. 计算机辅助设计与图形学学报 2011(10)
- [20].三维模型匹配的谱图小波描述符[J]. 浙江大学学报(工学版) 2019(04)
- [21].我国胡椒种质资源描述符研究与应用[J]. 中国热带农业 2017(05)
- [22].多描述符和多尺度城镇建筑分类[J]. 遥感信息 2014(02)
- [23].一种基于环间面积比的旋转、平移和缩放不变性描述符[J]. 模式识别与人工智能 2012(01)
- [24].一种用于图像检索的多层语义二值描述符[J]. 计算机学报 2020(09)
- [25].树描述符匹配算法在地形匹配中的应用[J]. 电脑与电信 2012(06)
- [26].空间主颜色描述符的图像特征提取算法[J]. 沈阳理工大学学报 2011(04)
- [27].一种新的局部仿射不变特征描述符[J]. 光电子.激光 2009(11)
- [28].三元组描述符的特征匹配算法[J]. 计算机应用与软件 2019(02)
- [29].基于颜色描述符的图像检索系统[J]. 信息系统工程 2017(03)
- [30].基于马尔可夫过程的边缘描述符提取算法[J]. 科技视界 2015(14)
标签:抗菌肽论文; 定量序效关系模型论文; 地统计学论文; 支持向量机论文; 描述子论文;