基于串核的蛋白质分类算法的研究与实现

基于串核的蛋白质分类算法的研究与实现

论文摘要

生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。如何提高蛋白质分类的精确性,或在保证精确性不会有较大的降低的前提下,如何提高蛋白质分类算法的计算效率和降低对内存的需求量,一直是生物信息学领域关注的焦点问题之一。本文正是在对经典的蛋白质分类算法研究的基础上,寻求更好的特征映射方法和更快的串核计算方法。基于串核的支持向量机分类器是现今分类效果最好的蛋白质分类器之一,其中,基于谱核的分类器具有速度快,分类效果也比较好的特点。而后改进的不匹配核通过引入不精确匹配思想,在增加了核的计算时间后,取得了更好的分类效果。本文通过对典型的串核,以及基于trie-树的串核计算进行分析,提出了对其在特征映射和计算上的改进方法。本文的主要工作和创新点有:(1)针对串核在特征提取上的不足,本文采用了一类称为样本核的特征提取方法。样本核以训练样本为特征来定义核的特征空间,以串核或其它核为相关的特征映射。所以,样本核以其他的分类核为基础,并可以通过增加先验知识和改变特征空间来改变分类效果。随后,本文针对不同应用下样本核的设计、选取以及计算简要做了分析。(2)在针对串核的计算方法上,本文设计并采用了一种称为剪枝后缀树的数据结构。剪枝后缀树结合了后缀树的后缀链思想以及trie-树在根结点计算核值的方法,具有比后缀树更少的空间以及比trie-树更快的时间。然后,应用剪枝后缀树设计出了针对p-谱核的快速计算方法。(3)针对p-谱核在字符匹配上的不足,结合不匹配核的思想提出了另一种不精确匹配核——模糊谱核。模糊谱核同样加入了不精确匹配的思想,但不同于不匹配核,模糊谱核把不匹配定义在两个样本串上。而在模糊谱核的计算上,同样利用了剪枝后缀树提高了字符匹配的速度。最后,本文设计并实现了一个蛋白质分类模型,并通过该模型对上面几种核进行了测试,通过测试实验表明,样本核在对串核的分类效果上有明显的改善,而剪枝后缀树也大大提高了串核计算的速度。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.1.1 生物信息学
  • 1.1.2 蛋白质结构分类
  • 1.1.3 蛋白质分类算法
  • 1.2 本文的研究内容
  • 第2章 基于串核的支持向量机分类
  • 2.1 引言
  • 2.2 支持向量机
  • 2.3 串核及其特征映射
  • 2.3.1 序列空间映射
  • 2.3.2 典型的串核及其定义
  • 2.4 基于Trie-树的串核计算
  • 2.4.1 基于trie-树的谱核计算
  • 2.4.2 基于trie-树的不匹配谱核计算
  • 2.5 本章小结
  • 第3章 基于剪枝后缀树的核计算及样本核
  • 3.1 引言
  • 3.2 样本核
  • 3.3 p-样本谱核及其计算
  • 3.3.1 剪枝后缀树设计
  • 3.3.2 P-谱核的计算
  • 3.3.3 算法复杂度分析
  • 3.4 模糊谱核和样本模糊谱核
  • 3.4.1 (p,m)-模糊谱核
  • 3.4.2 (p,m)-模糊谱核计算方法
  • 3.4.3 (p,m)-样本模糊谱核
  • 3.5 本章小结
  • 第4章 蛋白质分类模型设计及实验分析
  • 4.1 蛋白质分类模型设计
  • 4.1.1 结构设计
  • 4.1.2 系统功能
  • 4.2 实验结果与分析
  • 4.2.1 运行时间分析
  • 4.2.2 分类效果分析
  • 4.3 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].不得不知的蛋白质三大功能[J]. 现代养生 2020(17)
    • [2].酷算龙(四)[J]. 小学科技 2011(02)
    • [3].当基因爱上蛋白质[J]. 生命的化学 2019(05)
    • [4].生命离不开蛋白质[J]. 科学大观园 2009(05)
    • [5].科学家为你设计手工蛋白质[J]. 世界科学 2018(02)
    • [6].基于氨基酸序列和模拟结构预测蛋白质稳定性的研究进展[J]. 生物技术通报 2017(04)
    • [7].如何补充蛋白质食物才科学[J]. 烹调知识 2016(09)
    • [8].《生命活动的主要承担者——蛋白质》一节的教学设计[J]. 新课程(中学) 2014(12)
    • [9].分龄解读蛋白质补充[J]. 父母必读 2015(07)
    • [10].蛋白质——生命的基础材料[J]. 现代养生 2012(06)
    • [11].蛋白质是人体的原材料[J]. 现代养生 2012(14)
    • [12].初学者做好蛋白质SDS-PAGE需要注意的一些问题[J]. 生物学通报 2011(06)
    • [13].我曾只想做一枚安静的蛋白质[J]. 生命的化学 2019(06)
    • [14].基于网络资本评估和节点失效的关键蛋白质识别算法研究[J]. 智能计算机与应用 2016(06)
    • [15].近红外成像用于双向电泳前的蛋白质快速定量[J]. 分析科学学报 2017(04)
    • [16].家兔对蛋白质营养需要的分析[J]. 现代畜牧科技 2017(11)
    • [17].研究发现蛋白质可通过“展开”来预防机能失调及疾病[J]. 广东药科大学学报 2017(05)
    • [18].浅析蛋白质的相关问题[J]. 中学生物教学 2016(Z1)
    • [19].健康人的尿液中为什么会有蛋白质?[J]. 中国科学:生命科学 2020(03)
    • [20].蛋白质互作技术研究进展[J]. 湖北农业科学 2019(12)
    • [21].动态蛋白质网络的构建、分析及应用研究进展[J]. 计算机研究与发展 2017(06)
    • [22].有关蛋白质问题的解题策略[J]. 中学生数理化(学习研究) 2016(07)
    • [23].第十讲 人体必需的营养素——蛋白质[J]. 现代养生 2014(01)
    • [24].浅谈运动员如何补充蛋白质[J]. 田径 2011(03)
    • [25].巧搭蛋白质[J]. 养生大世界(B版) 2009(05)
    • [26].如何评价蛋白质的优劣[J]. 科学健身(健美先生) 2009(04)
    • [27].漫话蛋白质[J]. 云南科技管理 2011(05)
    • [28].热处理对蛋白质的影响[J]. 食品安全导刊 2015(36)
    • [29].常见蛋白质易错题的归类分析[J]. 中学生物学 2011(01)
    • [30].生命活动的主要承担者——蛋白质[J]. 课程教育研究 2015(23)

    标签:;  ;  ;  ;  

    基于串核的蛋白质分类算法的研究与实现
    下载Doc文档

    猜你喜欢