LZ复杂性算法及其在生物序列分析中的应用研究

LZ复杂性算法及其在生物序列分析中的应用研究

论文摘要

Lempel-Ziv(LZ)复杂性是符号序列的根本属性之一。经过适当的粗粒化和符号化,生物大分子(DNA、RNA、蛋白质等)也可表示成一维符号序列的形式。通过对生物序列的LZ复杂性及其它相关特性进行分析、比较,可以为解决近年来生物信息学领域许多基于序列分析的重要问题提供新的计算方法和研究途径。论文首先研究了LZ复杂性的概念和基本性质,在此基础上提出符号序列最长后缀前缀(LSP)划分的概念,证明了LSP划分与LZ复杂性定义中完备生成划分的等价性。提出了通过非空符号序列的LSP划分来进行LZ复杂性计算的LSP-LZC算法。采用基于带后缀链接的后缀树构造算法作为主要的计算步骤,算法LSP-LZC总的计算复杂度为线性时间和线性空间,在时间效率上优于现有的LZ复杂性算法。LZ复杂性是单个符号序列的数值属性。为了刻画不同序列间的LZ复杂性关系,论文提出了条件LZ复杂性的概念。基于条件LZ复杂性,进一步提出度量序列间相似关系的LZ复杂性相似度,证明了LZ复杂性相似度满足相似性测度的正定、自反和对称等性质。论文将LZ复杂性相似度应用于分子系统进化树重构的研究中。分别以线粒体全基因组和病毒全基因组DNA序列作为计算数据,基于LZ复杂性相似度对29种有胎盘哺乳动物和SARS冠状病毒进行系统进化树的重构,都得到了具有合理生物学意义的结果。基于LZ复杂性相似度,论文提出了相似度矩阵特征变换的概念和LZ复杂性核及核矩阵的构造方法。证明了LZ复杂性核的正定性和LZ相似关系不变性。给出了基于LZ复杂性核的支持向量机模型在符号序列的模式分析中进行学习和预测的方法。利用上述方法,可以实现基于一级序列数据的蛋白质亚细胞位点类型的机器预测。在真实的分别由部分真核生物和原核生物组成的两个标准数据集上进行预测实验,都取得了良好的效果。论文还提出了基于蛋白质接触图间的LZ复杂性分析进行蛋白质三维结构比较的方法。因为蛋白质的三维结构数据不能表示成符号序列的形式,论文通过计算蛋白质三维结构的接触图,并计算蛋白质对应接触图间的LZ复杂性相似度来度量不同结构之间的相似性,间接实现蛋白质三维结构的比较。论文分别在由真实蛋白质结构数据组成的Chew-Kedem数据集和从SCOP蛋白质结构分类数据库中构造的4个结构超家族数据集上对论文所提出的方法进行结构比较的实验,都取得了理想的结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 论文研究背景
  • 1.1.1 生物信息学
  • 1.1.2 生物序列的复杂性
  • 1.2 生物序列的LZ复杂性
  • 1.2.1 生物序列的粗粒化与符号化
  • 1.2.2 符号序列的LZ复杂性
  • 1.3 论文研究的主要内容
  • 1.4 论文的组织结构
  • 第2章 基于最长后缀前缀划分的LZ复杂性算法
  • 2.1 国内外LZ复杂性算法研究现状
  • 2.2 符号序列LZ复杂性的LSP-LZC算法
  • 2.2.1 符号序列的最长后缀前缀(LSP)划分
  • 2.2.2 LSP-LZC算法
  • 2.2.3 基于后缀树构造的STC-LSPsA算法
  • 2.3 计算复杂度分析
  • 2.3.1 时间复杂度
  • 2.3.2 空间复杂度
  • 2.4 实验比较
  • 2.4.1 实验环境
  • 2.4.2 实验结果
  • 2.5 小结
  • 第3章 基于LZ复杂性相似度的系统进化树重构
  • 3.1 引言
  • 3.1.1 系统进化与系统进化树
  • 3.1.2 国内外研究现状
  • 3.2 条件LZ复杂性
  • 3.2.1 条件LZ复杂性概念
  • 3.2.2 符号序列的CLSP划分
  • 3.2.3 条件LZ复杂性的CP-CLZC算法
  • 3.3 符号序列的LZ复杂性相似度
  • 3.3.1 条件LZ复杂性与序列相似性
  • 3.3.2 LZ复杂性相似度
  • 3.3.3 LZ复杂性相似度的实验分析
  • 3.4 基因组分子系统进化树的重构
  • 3.4.1 有胎盘哺乳动物的系统进化树重构
  • 3.4.2 SARS冠状病毒的系统进化树重构
  • 3.5 小结
  • 第4章 基于LZ复杂性核的蛋白质亚细胞位点类型预测
  • 4.1 引言
  • 4.1.1 蛋白质亚细胞位点类型及其预测
  • 4.1.2 国内外研究现状
  • 4.2 符号序列的LZ复杂性核
  • 4.2.1 基本概念
  • 4.2.2 构造LZ复杂性核矩阵
  • 4.2.3 基于LZ复杂性核的模式分析
  • 4.3 实验比较
  • 4.3.1 数据集
  • 4.3.2 评价指标与检验方式
  • 4.3.3 实验结果
  • 4.4 小结
  • 第5章 基于接触图间LZ复杂性分析的蛋白质三维结构比较
  • 5.1 引言
  • 5.1.1 蛋白质结构层次及三维结构比较
  • 5.1.2 国内外研究现状
  • 5.2 蛋白质三维结构接触图
  • 5.2.1 三维结构接触图
  • 5.2.2 三维结构接触图的空间信息
  • 5.3 基于接触图间LZ复杂性分析的蛋白质三维结构比较
  • 5.4 实验分析
  • 5.4.1 Chew-Kedem数据集上的实验
  • 5.4.2 SCOP数据库中4个数据集上的实验
  • 5.5 小结
  • 第6章 总结与展望
  • 6.1 工作总结
  • 6.2 研究展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表论文情况
  • 相关论文文献

    标签:;  ;  ;  ;  

    LZ复杂性算法及其在生物序列分析中的应用研究
    下载Doc文档

    猜你喜欢