小波支持向量机在蛋白质结构功能预测中的应用

小波支持向量机在蛋白质结构功能预测中的应用

论文摘要

随着人类基因组计划(HGP)的顺利完成和现在生物科学和技术的迅猛发展,每天都有大量的蛋白质序列数据不断涌现。对这些数据进行深入研究以达到对化学和生物意义的深入理解是现代生物信息学的热点。蛋白质结构分析的经典方法是x射线晶体学和多维核磁共振技术。这些技术昂贵、费时、甚至有些蛋白质根本无法用这些方法测出结构;而另一方面,蛋白质测序显得相对简单、快捷和廉价。因此,从蛋白质序列出发,发展自动、可靠的理论预测方法具有十分重要的理论意义和实用价值。本文根据蛋白质结构、功能的预测研究现状,采用新兴的机器学习方法—支持向量机,并结合离散小波变换技术,对蛋白质的结构与功能预测进行研究,其主要内容如下:1.提出了预测蛋白质二级结构的新方法—小波支持向量机方法。本文定义了一种新颖的蛋白质序列表征方法,用于表征蛋白质样本,采用小波支持向量机对蛋白质的二级结构类型进行预测。对文献中常用的非同源蛋白质的数据集进行了自检验和留一法检验,预测结果得到了显著提高。在此基础上,进一步深入研究蛋白质序列的同源性对预测准确率的影响;对Chou构建的高同源蛋白质数据库(同源性高于95%)和Wang构建的低同源蛋白质数据库(同源性为30%)进行了测试,结果表明,蛋白质序列的同源性对蛋白质二级结构预测的准确率有较大的影响。2.建立了酶与非酶分类预测的新方法。以代码为1A2J酶蛋白为例,描述了应用离散小波变换提取酶结构特征向量的过程;并对小波尺度、小波函数和疏水标度值等影响因素进行了探讨和优化。采用Paul等人构建的数据库P1178,以及Cai等人构建的数据集C1200对本方法进行了验证,总的预测精度分别达到了95.59%和93.75%,优于现有文献的报道。同时,还分析了预测结果出现偏差的原因。结果表明,离散小波能有效地解析氨基酸序列信号,并有力地从小波分解系数提取酶蛋白序列的结构特征;与国际上流行的方法相比,本法具有预测简单、直观和准确率高等优点。3.建立了凋亡蛋白亚细胞位点预测新方法。基于离散小波技术,提出了小波支持向量机方法,用于凋亡蛋白亚细胞位点定位研究。本方法主要包括三个步骤,首先应用氨基酸疏水值将蛋白质氨基酸序列转换为数字信号,然后利用信号处理工具—离散小波变换提取凋亡蛋白的时-频特征,最后根据优选的时-频特征用支持向量机进行模拟预测。对Zhou和Doctor建立的标准数据集ZD98、Zhang等人的数据集ZW225,以及Chou和Lin建立的数据集CL317进行了Jackknife检验,预测精度分别为88.8%,87.6%和97.5%,优于多数文献报道的方法。由于该方法仅仅基于氨基酸序列就可以对蛋白质结构类进行分类识别,这将有助于解决当蛋白质结构实验数据缺乏的情况下亚细胞位点的预测问题。4.建立了一种膜蛋白类型预测新方法。现有蛋白质亚细胞定位方法针对水溶性蛋白质而设计,对跨膜蛋白并不适用。本文提出了一种预测膜蛋白结构类型的新方法。该方法将小波分析技术与支持向量机算法有机结合,利用小波变换多分辨原理对氨基酸序列进行特征提取,进而将筛选的特征值输入到支持向量机分类器中用来识别膜蛋白结构类型。数据集中测试结果表明,此方法性能优于多数文献报道的方法,是一种有效的膜蛋白结构类型预测的方法。以上蛋白质分类预测技术都已编写了完整的处理程序,可以极为方便地使用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 蛋白质的结构层次
  • 1.3 蛋白质结构和功能预测
  • 1.4 特征提取与优化方法
  • 1.4.1 遗传算法
  • 1.4.2 偏最小二乘
  • 1.4.3 傅里叶变换
  • 1.4.4 小波变换
  • 1.5 支持向量机
  • 1.5.1 两类问题
  • 1.5.2 多类分类问题
  • 1.5.3 分类系统的评价
  • 1.5.3.1 评价方法
  • 1.5.3.2 评价指标
  • 1.6 本文主要研究内容
  • 参考文献
  • 第二章 蛋白质二级结构预测
  • 2.1 引言
  • 2.2 材料与方法原理
  • 2.2.1 数据集
  • 2.2.2 离散小波变换原理
  • 2.2.3 支持向量机原理
  • 2.3 结果与讨论
  • 2.3.1 分解尺度和分解小波的选择
  • 2.3.2 疏水值的选择
  • 2.3.3 预测结果
  • 2.3.4 与其他方法的比较
  • 2.3.5 序列同源性的影响
  • 2.4 结论
  • 参考文献
  • 第三章 酶结构预测
  • 3.1 引言
  • 3.2 数据集
  • 3.3 原理
  • 3.3.1 离散小波变换原理
  • 3.3.2 蛋白酶特征向量的构建
  • 3.3.3 支持向量机原理
  • 3.4 实验结果
  • 3.4.1 事例
  • 3.4.2 分解尺度的选择
  • 3.4.3 分解函数的选择
  • 3.4.4 疏水值的选择
  • 3.4.5 与文献方法的比较
  • 3.5 讨论
  • 3.6 结论
  • 参考文献
  • 第四章 凋亡蛋白亚细胞位点预测
  • 4.1 引言
  • 4.2 原理与方法
  • 4.2.1 数据集
  • 4.2.2 离散小波变换原理
  • 4.2.3 多类支持向量机分类器
  • 4.3 结果与讨论
  • 4.3.1 分解层数的选择
  • 4.3.2 分解函数的选择
  • 4.3.3 疏水值的选择
  • 4.3.4 与文献方法的比较
  • 4.4 结论
  • 参考文献
  • 第五章 膜蛋白类型预测
  • 5.1 前言
  • 5.2 材料与方法
  • 5.2.1 数据集
  • 5.2.2 离散小波变换原理
  • 5.2.3 支持向量机分类器
  • 5.3 结果与讨论
  • 5.3.1 实例
  • 5.3.2 分解函数及分解层数的选择
  • 5.3.3 实验结果
  • 5.4 结论
  • 参考文献
  • 攻读硕士学位期间的研究成果
  • 致谢
  • 相关论文文献

    • [1].不得不知的蛋白质三大功能[J]. 现代养生 2020(17)
    • [2].酷算龙(四)[J]. 小学科技 2011(02)
    • [3].当基因爱上蛋白质[J]. 生命的化学 2019(05)
    • [4].生命离不开蛋白质[J]. 科学大观园 2009(05)
    • [5].科学家为你设计手工蛋白质[J]. 世界科学 2018(02)
    • [6].基于氨基酸序列和模拟结构预测蛋白质稳定性的研究进展[J]. 生物技术通报 2017(04)
    • [7].如何补充蛋白质食物才科学[J]. 烹调知识 2016(09)
    • [8].《生命活动的主要承担者——蛋白质》一节的教学设计[J]. 新课程(中学) 2014(12)
    • [9].分龄解读蛋白质补充[J]. 父母必读 2015(07)
    • [10].蛋白质——生命的基础材料[J]. 现代养生 2012(06)
    • [11].蛋白质是人体的原材料[J]. 现代养生 2012(14)
    • [12].初学者做好蛋白质SDS-PAGE需要注意的一些问题[J]. 生物学通报 2011(06)
    • [13].我曾只想做一枚安静的蛋白质[J]. 生命的化学 2019(06)
    • [14].基于网络资本评估和节点失效的关键蛋白质识别算法研究[J]. 智能计算机与应用 2016(06)
    • [15].近红外成像用于双向电泳前的蛋白质快速定量[J]. 分析科学学报 2017(04)
    • [16].家兔对蛋白质营养需要的分析[J]. 现代畜牧科技 2017(11)
    • [17].研究发现蛋白质可通过“展开”来预防机能失调及疾病[J]. 广东药科大学学报 2017(05)
    • [18].浅析蛋白质的相关问题[J]. 中学生物教学 2016(Z1)
    • [19].健康人的尿液中为什么会有蛋白质?[J]. 中国科学:生命科学 2020(03)
    • [20].蛋白质互作技术研究进展[J]. 湖北农业科学 2019(12)
    • [21].动态蛋白质网络的构建、分析及应用研究进展[J]. 计算机研究与发展 2017(06)
    • [22].有关蛋白质问题的解题策略[J]. 中学生数理化(学习研究) 2016(07)
    • [23].第十讲 人体必需的营养素——蛋白质[J]. 现代养生 2014(01)
    • [24].浅谈运动员如何补充蛋白质[J]. 田径 2011(03)
    • [25].巧搭蛋白质[J]. 养生大世界(B版) 2009(05)
    • [26].如何评价蛋白质的优劣[J]. 科学健身(健美先生) 2009(04)
    • [27].漫话蛋白质[J]. 云南科技管理 2011(05)
    • [28].热处理对蛋白质的影响[J]. 食品安全导刊 2015(36)
    • [29].常见蛋白质易错题的归类分析[J]. 中学生物学 2011(01)
    • [30].生命活动的主要承担者——蛋白质[J]. 课程教育研究 2015(23)

    标签:;  ;  ;  ;  ;  

    小波支持向量机在蛋白质结构功能预测中的应用
    下载Doc文档

    猜你喜欢