论文摘要
在细胞体内,为了完成某种特定功能的蛋白质之间往往会有相对较多的相互作用,从而形成一些生物大分子复合物或功能模块,如翻译蛋白的分子机器核糖体等。所谓“物以类聚,人以群分”,模块结构是许多生物网络以及其他实际复杂网络中常见也很重要的一个特征。从生物网络中找出这些模块成分,对于了解生命系统中的网络结构和分析网络动态变化都具有极为重要的意义。而如何准确高效的在生物网络中定位这些模块结构是许多研究工作的前提,也是当今网络生物学中一个非常具有挑战性和应用前景性的研究领域。本论文通过对传统的广泛应用于网络模块定位的常规聚类算法的分析,我们指出了这类算法中影响其性能的弱点所在。无论是分裂式聚类算法(如GN算法)还是聚合式聚类算法(如Newman-fast算法),在其算法流程中,后续步骤里的网络节点都不能自由的在前面步骤里形成的模块间穿梭交换,而只能局限在其当前所在的模块里继续被划分或者聚合;这样就导致早期的一些不理想的模块结构不能在后期过程里得以修正,并且早期错误的划分或聚合很可能在后续过程里被继续积累放大。为了克服这种困难,我们开发了新的自适应聚类算法来优化网络的模块度函数,以获得更佳的模块划分结果。在自适应聚类算法中,我们把网络里的每个节点都看成自治的主体,每个节点能根据其自身受到所在模块的引力以及外部模块对它的往外的拉力,从而自主决定其模块归属和去向,通过众节点的自组织行为,系统能自发呈现出理想的阶段性模块结构,而后通过反复的模块合并流程和自组织调整流程,最终获取最优的模块划分结构。此外,我们将上述算法编制成了Java程序以便应用,从而为我们能在系统的层面上对生物网络作进一步的深入研究提出了基础工具。通过与当今著名的Newman-fast算法的比较,我们的算法在准确程度和时间效率上都取得了显著的提高。如在人工构建的模拟测试网络上将预测准确率从40.0%提高到了74.0%左右;在实际网络应用测验中,自适应聚类算法的表现也都要优于Newman-fast算法,其获得的模块结构都更加接近真实标准分类。同时,我们将自适应聚类算法应用到了酵母蛋白质相互作用网络上,获取了36个拓扑模块,通过对这些模块的GO注释等生物学分析,结果表明这些拓扑模块与它们在生物学意义上的功能模块划分相当吻合,说明我们的算法可以很好的应用于规模较大的生物网络中。另外,与Newman-fast在同样的酵母网络上的应用也作了比较,计算结果表明自适应聚类算法能够非常快速(约40倍)的获得结果,并且其模块结构的蛋白成员在生物学功能上的关联要更加紧密一些。
论文目录
相关论文文献
标签:蛋白相互作用网络论文; 模块结构论文; 模块度论文; 自适应聚类算法论文;