基于网络节点拓扑参数的关键蛋白质识别研究

论文摘要

蛋白质分子功能的重要性与它在蛋白质网络中对应节点的拓扑特性紧密相关。关键蛋白质的识别有助于从系统水平上理解生命活动的内在组织和过程,在疾病诊疗及药物设计等方面有重要的应用前景。与生物学实验方法及其它方法相比,基于拓扑结构的生物信息学方法在关键蛋白质识别上有独特优势。针对已有方法对关键蛋白质识别度不高的现状,认为进一步提高识别度有两条途径:一是发现与关键蛋白质关系更密切的参数,二是充分挖掘现有参数的信息并进行有效地整合。对于第一种途径,根据点覆盖在网络（图）拓扑结构上的重要地位而研究将其引入关键蛋白质的识别中;对于第二种途径,主要探讨复合参数的构造及异步识别方法,通过将多个参数所隐含的关键蛋白质信息进行有效整合而提高识别度。点覆盖问题虽然可以在参数计算理论的架构内求精确解,但是目前在理论及应用上有一定的局限性。将参数计算理论引进随机网络领域,利用随机网络统计和概率分布等特性,从全局和整体上分析并揭示参数化点覆盖问题低度（1度和2度）节点核化过程中问题的核及度分布演变的内在机制和变化规律。同时,根据核与节点度分布以及边的关系,提出随机网络参数化点覆盖问题的d-核化可决策性。在1度点核化的研究中,首先分析节点之间的映射关系,然后将它们的邻接关系进行量化,得出1度点核化算法对平均度为ω≤2.3的随机网络点覆盖问题的核化强度最高,同时指出它的d-核化（d=1）可决策性。在2度点核化的研究中,提出2度点三角形子网的计数方法;通过研究子网对节点的共享关系,分析2度点核化过程中核及度分布演变的动态过程,得出2度点核化算法对2度点分布概率在0.75左右的随机网络的核化强度最高,同时也指出它的d-核化（d=2）可决策性。初步结果表明,对随机网络点覆盖问题低度点核化过程的分析方法不但具有理论上的意义,而且随着问题随机度的大小而对问题有不同程度的把握能力,并提供了随机网络上这一NP完全问题的求解方法,也为参数计算在包括蛋白质网络在内的已知度分布的一类不确定问题中的应用提供了可能。对一给定的网络（图）来说,虽然最小点覆盖集的大小是一个固定值,但就一般情况而言可以求解出多个节点构成不同的最小覆盖集。为此,提出骨干点覆盖集、非骨干覆盖集及非覆盖集等概念,然后对蛋白质网络进行最小点覆盖分析并获得一种新的拓扑参数——点覆盖参数,从另一种角度描述节点的拓扑重要性。为了避开点覆盖参数精确求解方法中可能出现的NP-难问题,根据稀疏网络中存在大量的◇、Δ2、∧2子网的特点,将确定算法与非确定算法相结合,提出基于随机核化的快速算法（A-Q算法）。该算法通过引进参数计算的相关算法将复杂度大幅度降低,同时通过随机和统计方法使得到的结果尽可能接近实际解。结果显示,该算法得到的点覆盖参数与关键蛋白质有着密切的联系,在识别仿真上也表现出较好的性能,因此在描述节点的拓扑特性上具有重要意义。把关键蛋白质识别看作是一类特殊的模式识别。从相关分析出发对关键蛋白质与其主要拓扑参数的相互关系进行研究,发现参数对关键蛋白质识别能力的大小与两者之间的相关性有关;研究复合参数识别度与独立参数识别度、与独立参数相关性之间的关系,发现参数之间相关性的大小在很大程度上预示它们所蕴含的关键蛋白质信息之间互补性的强弱;根据上述发现,探讨利用包括点覆盖在内的各个参数的有限信息进行整合的方法,提出有效的复合参数构造方法及异步识别方法。实验结果证实,通过该技术获得的识别度明显高于其它识别技术。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 课题研究意义

1.2 目标和内容

1.3 本文的工作与组织

第2章基于网络拓扑的关键蛋白质识别

2.1 概述

2.2 节点的中心性测度

2.3 蛋白质网络

2.3.1 蛋白质网络的复杂网络特征

2.3.2 蛋白质网络的层次结构

2.4 关键蛋白质及其相关研究

2.4.1 节点重要性研究的一般方法

2.4.2 蛋白质网络节点之间的关系

2.4.3 关键蛋白质的识别研究

2.4.4 与蛋白质相关的其它生物网络节点研究

2.5 关键蛋白质识别的相关算法

2.6 本章小结

第3章随机网络点覆盖1度节点核化研究

3.1 概述

3.2 随机网络及其基本概念

3.2.1 随机网络

3.2.2 生成函数及其度分布

3.3 1度点核化研究

3.3.1 基本概念

3.3.2 节点之间的邻接关系

3.3.3 相互邻接的1度点与d度点之间的映射

3.3.4 核化后节点度的变化及度分布的调整

3.4 实验结果及分析

3.4.1 理论期望值与实际结果的比较

3.4.2 随机网络点覆盖及其核化的一些特性

3.5 关于随机网络点覆盖1度核化的若干讨论

3.5.1 随机网络点覆盖1度核化的理论意义

3.5.2 具体应用—对蛋白质网络的分析

3.6 本章小结

第4章基于子网的随机网络点覆盖2度点核化

4.1 概述

4.2 子网的相关研究

4.2.1 子网分割

4.2.2 子网计数

2子网及其计数'>4.3 △₂子网及其计数

4.3.1 基本概念

2子网计数'>4.3.2 节点的邻接关系及△₂子网计数

4.4 2度点核化分析

2子网节点共享关系'>4.4.1 △₂子网节点共享关系

4.4.2 点覆盖分析

4.4.3 节点度分布的调整

4.5 实验结果及分析

4.5.1 理论值与实际结果的比较

2子网核化的一些特性'>4.5.2 基于△₂子网核化的一些特性

2子网核化性能分析'>4.5.3 △₂子网核化性能分析

4.5.4 低度点两种核化方法的比较

4.6 本章小结

第5章点覆盖参数及其关键蛋白质识别研究

5.1 概述

5.2 最小点覆盖的相关算法

5.2.1 非确定算法

5.2.2 确定性算法

5.3 点覆盖参数及其快速算法

5.3.1 点覆盖参数

5.3.2 最小点覆盖的核化技术

5.3.3 稀疏网络点覆盖参数的快速求解

5.4 实验结果及分析

5.4.1 数据来源

5.4.2 点覆盖参数与关键蛋白质

5.4.3 点覆盖参数的识别性能

5.5 本章小结

第6章基于复合参数的关键蛋白质识别技术

6.1 概述

6.2 相关分析的主要方法

6.3 复合参数关键蛋白质识别研究

6.3.1 基本概念

6.3.2 复合参数异步识别方法

6.4 实验结果及分析

6.4.1 数据来源

6.4.2 独立参数与复合参数的总体有效性分析

6.4.3 基于相关分析的复合参数构造

6.4.4 复合参数的异步识别性能

6.4.5 由 VP参与构成的复合参数

6.4.6 关于复合参数异步识别方法的一些讨论

6.5 本章小结

第7章结束语

7.1 工作总结

7.2 研究展望

参考文献

致谢

攻博期间参与科研项目及发表论文情况

基于网络节点拓扑参数的关键蛋白质识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢