基于氨基酸序列的蛋白质结构功能预测方法研究

基于氨基酸序列的蛋白质结构功能预测方法研究

论文摘要

近年来,高通量技术的应用带来了蛋白质数据成指数的增长。在这些海量多样的蛋白质数据中,蕴藏着大量有创新性的生物新规律和新概念。随着人类基因组计划(HGP)的顺利完成,研究这些成指数增长且高噪声的海量蛋白质数据需要高速、准确、可拓展的理论及其算法。因此,推动了一门新兴学科—生物信息学的诞生和发展,蛋白质结构和功能的研究是生物信息学领域的前沿课题,也是后基因组时代的核心问题之一。本文基于蛋白质结构和功能的预测研究现状,采用支持向量机等多种分类器,并结合不同的特征提取算法,对蛋白质结构和功能进行分类预测研究,主要工作概括如下:(1)提出了预测蛋白质同源寡聚体的新模型—小波支持向量机模型。本文通过离散小波变换有效地提取了蛋白质序列的特征信息,并采用了不同分类算法对同源寡聚体类型进行分类预测。通过留一法检验表明,小波支持向量机模型能更好地分类预测同源寡聚体的类型,同时预测结果比文献报道的结果有明显地提高;在此基础上,进一步深入研究了数据集的大小对预测准确率的影响。结果表明在数据集平衡的情况下,随着数据集的减小,jackknife运算机制受到影响,而导致预测准确率降低,这与文献报道一致。(2)建立了同源寡聚体和异源寡聚体的分类预测新模型。该模型将离散小波和氨基酸的物理化学性质相结合,利用离散小波变换近似系数和细节系数,将同源寡聚体和异源寡聚体的序列分解为多层次的小波系数,即将一维序列分解为同时具有时-频特性的二维序列,并从其中提取有效的特征向量信息。最后通过不同的分类算法对蛋白质序列进行分类预测研究。同时对Chou构建的高序列一致性蛋白质数据库和Xiao构建的低序列一致性蛋白质数据库进行了分类预测研究,发现该模型不仅能够提高预测准确率,而且能有效地克服低序列一致性数据库预测准确率较低的问题。(3)建立了蛋白质四级结构及亚结构的预测新模型。从氨基酸的疏水性和极性出发,基于离散小波变换和决策树算法,构建了预测蛋白质四级结构及亚结构的新模型DWTDT。本文重点研究了氨基酸疏水性和极性对预测结果的影响,经分析表明疏水性对蛋白质结构的预测准确率有重要的影响。同时,深入挖掘算法产生过拟合的原因,并通过ROC曲线和PR曲线的评价,阐明了我们所构建的模型能够有效克服过拟合。基于上述研究结果,我们构建了网络在线预测平台,通过Internet向所有使用者提供开放式服务。(4)建立了蛋白质棕榈化修饰位点的预测新模型—WSM-Plam模型。该模型融合权重氨基酸成分、自相关函数和溶剂可及表面面积等多种特征提取方法表达棕榈化位点样本特征向量信息,并通过不同的分类算法对其进行分类预测。实验结果表明,融合的特征提取方法比单一的方法能够包含更多的有效特征向量,从而更准确的对位点进行识别分类。此外,该模型计算简单、分类精度高,且具有较强的自适应、泛化和推广应用能力。最后,我们构建了棕榈化位点的在线预测平台(http://bioinfo.ncu.edu.cn/services-ptm.aspx)。上述各种算法都已编写了处理程序并实现网络在线预测,可以极为方便地使用并处理数据。本论文获得了国家自然科学基金、江西省自然科学基金和国家重点实验室基金的资助。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 引言
  • 1.2 蛋白质的结构层次和功能
  • 1.3 生物信息数据库
  • 1.4 特征提取与优化方法
  • 1.4.1 小波变换(Wavelet Transform)
  • 1.4.2 氨基酸成分(Amino acid composition,AAc)
  • 1.4.3 权重氨基酸成分(Weight Amino acid composition,WAAc)
  • 1.4.4 自相关函数(auto-correlation functions,ACF)
  • 1.4.5 氨基酸溶剂可及表面积(accessible surface area,ASA)
  • 1.5 分类算法
  • 1.5.1 支持向量机(Support vector machine,SVM)
  • 1.5.2 K-最近邻算法(K-Nearest Neighbor,KNN)
  • 1.5.3 贝叶斯算法(Bayes)
  • 1.5.4 决策树算法(Decision tree,DT)
  • 1.5.5 多类分类问题
  • 1.6 分类系统的评价
  • 1.6.1 评价方法
  • 1.6.2 评价指标
  • 1.7 本文主要研究内容
  • 参考文献
  • 第2章 蛋白质同源寡聚体的预测分析
  • 2.1 引言
  • 2.2 材料与方法原理
  • 2.2.1 数据集
  • 2.2.2 方法和原理
  • 2.2.3 支持向量机原理
  • 2.3 结果与讨论
  • 2.3.1 小波基的选择
  • 2.3.2 分类器的选择
  • 2.3.3 序列同源性的影响
  • 2.3.4 数据库大小对结果的影响
  • 2.3.5 与其它预测模型的比较
  • 2.4 结论
  • 参考文献
  • 第3章 同源寡聚体和异源寡聚体的预测分析
  • 3.1 引言
  • 3.2 原理与方法
  • 3.2.1 数据库
  • 3.2.2 方法和原理
  • 3.2.3 支持向量机
  • 3.2.4 评价指标
  • 3.3 实验结果
  • 3.3.1 小波函数的选择
  • 3.3.2 选择合适的物理化学性质
  • 3.3.3 比较不同的分类算法
  • 3.3.4 序列一致性的影响
  • 3.3.5 与文献方法的比较
  • 3.4 结论
  • 参考文献
  • 第4章 蛋白质四级结构及其亚结构的预测分析
  • 4.1 引言
  • 4.2 原理与方法
  • 4.2.1 数据集
  • 4.2.2 方法和原理
  • 4.2.3 决策树
  • 4.2.4 评价指标
  • 4.3 结果与讨论
  • 4.3.1 小波函数的选择
  • 4.3.2 比较不同的分类算法
  • 4.3.3 不同物理化学性质的选择
  • 4.3.4 与文献方法的比较
  • 4.3.5 随机测试
  • 4.4 结论
  • 参考文献
  • 第5章 蛋白质棕榈化修饰位点的预测分析
  • 5.1 前言
  • 5.2 材料与方法
  • 5.2.1 数据集
  • 5.2.2 特征提取和编码
  • 5.2.3 模型的评估
  • 5.3 结果与讨论
  • 5.3.1 确定最优的窗口尺寸大小和特征提取
  • 5.3.2 相关序列长度的影响
  • 5.3.3 考察不同的氨基酸疏水值
  • 5.3.4 分析序列标识图
  • 5.3.5 正负样本比例对结果的影响
  • 5.3.6 不同分类算法的影响
  • 5.3.7 独立测试集的预测结果
  • 5.3.8 位点的3D结构和网络服务
  • 5.4 结论
  • 参考文献
  • 第6章 在线服务平台
  • 6.1 网站建立的意义
  • 6.2 在线服务平台
  • 附录
  • 附录A
  • 附录B
  • 致谢
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    • [1].天然Aβ寡聚体抗体的制备研究[J]. 四川大学学报(自然科学版) 2016(03)
    • [2].Aβ_(1-42)寡聚体诱导阿尔茨海默病动物模型的研究[J]. 医学综述 2016(15)
    • [3].脑卒中患者血浆中α-突触核蛋白及其寡聚体形成量变化的研究[J]. 首都医科大学学报 2013(06)
    • [4].Aβ寡聚体与阿尔茨海默病的研究进展[J]. 临床医学工程 2012(12)
    • [5].Aβ寡聚体与阿尔采末病及其靶点药物研究进展[J]. 中国药理学通报 2008(12)
    • [6].假复型技术在Aβ寡聚体电镜检测中的应用研究[J]. 医学研究杂志 2008(11)
    • [7].Aβ_(1-42)寡聚体与阿尔茨海默病研究综述[J]. 局解手术学杂志 2016(02)
    • [8].Aβ_(25-35)寡聚体对大鼠海马神经细胞的活性影响及形态学观察[J]. 中风与神经疾病杂志 2013(03)
    • [9].Aβ_(1~42)寡聚体与纤维体的制备及鉴定[J]. 中国老年学杂志 2013(09)
    • [10].可溶性β-淀粉样蛋白寡聚体的结构与神经毒性[J]. 生命的化学 2010(05)
    • [11].Aβ_(1-42)寡聚体对大鼠认知功能的影响和神经毒性分析[J]. 解剖学杂志 2015(06)
    • [12].基于次生特征提取方法预测蛋白质同源寡聚体[J]. 北京生物医学工程 2010(01)
    • [13].G蛋白偶联受体寡聚体的研究方法[J]. 济宁医学院学报 2012(03)
    • [14].单体、寡聚体及纤维状Aβ毒性作用的比较研究[J]. 中国实验诊断学 2012(09)
    • [15].Aβ_(25~35)寡聚体对原代培养海马神经元突触的损伤作用[J]. 黑龙江医药科学 2010(03)
    • [16].人源性天然抗体库的构建及淀粉样蛋白Aβ_(1-42)寡聚体单链抗体的筛选和鉴定[J]. 生物工程学报 2009(08)
    • [17].基于多策略滑动伸缩窗特征提取方法预测蛋白质同源寡聚体[J]. 生物物理学报 2009(05)
    • [18].α-synuclein寡聚体介导的神经免疫炎症:帕金森病伴发很可能的快速眼动睡眠行为障碍的潜在机制[J]. 神经药理学报 2018(03)
    • [19].海风藤对β淀粉样蛋白寡聚体激活小胶质细胞的影响[J]. 中国神经免疫学和神经病学杂志 2013(02)
    • [20].β-淀粉样多肽低分子量寡聚体对大鼠学习记忆功能的影响[J]. 现代生物医学进展 2012(01)
    • [21].β-淀粉样蛋白单体及寡聚体鉴定方法的改进与优化[J]. 中国生物化学与分子生物学报 2017(08)
    • [22].抑制葡糖脑苷脂酶对多巴胺神经细胞内α-突触核蛋白寡聚体形成及细胞自噬功能的影响[J]. 首都医科大学学报 2013(06)
    • [23].β淀粉样蛋白_(1-42)寡聚体和人重组α-突触核蛋白对原代培养神经元突触的影响[J]. 中国临床神经科学 2014(01)
    • [24].帕金森病患者血浆和红细胞α-突触核蛋白寡聚体水平及临床意义[J]. 中国康复理论与实践 2017(09)
    • [25].Sortase A介导的(S)-羰基还原酶Ⅱ寡聚体高效立体选择性转化(S)-苯基乙二醇[J]. 微生物学报 2017(12)
    • [26].帕金森病患者血浆和红细胞α-突触核蛋白寡聚体水平检测分析[J]. 饮食科学 2019(06)
    • [27].DMT1过表达加重Aβ寡聚体诱导的细胞凋亡[J]. 解剖科学进展 2020(06)
    • [28].不同浓度β-淀粉样蛋白寡聚体的毒性差异[J]. 卒中与神经疾病 2010(06)
    • [29].Aβ寡聚体对海马神经细胞突触形态及突触蛋白Ng表达的影响[J]. 黑龙江医药科学 2016(05)
    • [30].Aβ_(1-42)寡聚体对小鼠神经胶质细胞D1a IL-1β表达水平的影响研究[J]. 现代医药卫生 2018(24)

    标签:;  ;  ;  ;  ;  

    基于氨基酸序列的蛋白质结构功能预测方法研究
    下载Doc文档

    猜你喜欢