论文摘要
蛋白质分子功能的重要性与它在蛋白质网络中对应节点的拓扑特性紧密相关。关键蛋白质的识别有助于从系统水平上理解生命活动的内在组织和过程,在疾病诊疗及药物设计等方面有重要的应用前景。与生物学实验方法及其它方法相比,基于拓扑结构的生物信息学方法在关键蛋白质识别上有独特优势。针对已有方法对关键蛋白质识别度不高的现状,认为进一步提高识别度有两条途径:一是发现与关键蛋白质关系更密切的参数,二是充分挖掘现有参数的信息并进行有效地整合。对于第一种途径,根据点覆盖在网络(图)拓扑结构上的重要地位而研究将其引入关键蛋白质的识别中;对于第二种途径,主要探讨复合参数的构造及异步识别方法,通过将多个参数所隐含的关键蛋白质信息进行有效整合而提高识别度。点覆盖问题虽然可以在参数计算理论的架构内求精确解,但是目前在理论及应用上有一定的局限性。将参数计算理论引进随机网络领域,利用随机网络统计和概率分布等特性,从全局和整体上分析并揭示参数化点覆盖问题低度(1度和2度)节点核化过程中问题的核及度分布演变的内在机制和变化规律。同时,根据核与节点度分布以及边的关系,提出随机网络参数化点覆盖问题的d-核化可决策性。在1度点核化的研究中,首先分析节点之间的映射关系,然后将它们的邻接关系进行量化,得出1度点核化算法对平均度为ω≤2.3的随机网络点覆盖问题的核化强度最高,同时指出它的d-核化(d=1)可决策性。在2度点核化的研究中,提出2度点三角形子网的计数方法;通过研究子网对节点的共享关系,分析2度点核化过程中核及度分布演变的动态过程,得出2度点核化算法对2度点分布概率在0.75左右的随机网络的核化强度最高,同时也指出它的d-核化(d=2)可决策性。初步结果表明,对随机网络点覆盖问题低度点核化过程的分析方法不但具有理论上的意义,而且随着问题随机度的大小而对问题有不同程度的把握能力,并提供了随机网络上这一NP完全问题的求解方法,也为参数计算在包括蛋白质网络在内的已知度分布的一类不确定问题中的应用提供了可能。对一给定的网络(图)来说,虽然最小点覆盖集的大小是一个固定值,但就一般情况而言可以求解出多个节点构成不同的最小覆盖集。为此,提出骨干点覆盖集、非骨干覆盖集及非覆盖集等概念,然后对蛋白质网络进行最小点覆盖分析并获得一种新的拓扑参数——点覆盖参数,从另一种角度描述节点的拓扑重要性。为了避开点覆盖参数精确求解方法中可能出现的NP-难问题,根据稀疏网络中存在大量的◇、Δ2、∧2子网的特点,将确定算法与非确定算法相结合,提出基于随机核化的快速算法(A-Q算法)。该算法通过引进参数计算的相关算法将复杂度大幅度降低,同时通过随机和统计方法使得到的结果尽可能接近实际解。结果显示,该算法得到的点覆盖参数与关键蛋白质有着密切的联系,在识别仿真上也表现出较好的性能,因此在描述节点的拓扑特性上具有重要意义。把关键蛋白质识别看作是一类特殊的模式识别。从相关分析出发对关键蛋白质与其主要拓扑参数的相互关系进行研究,发现参数对关键蛋白质识别能力的大小与两者之间的相关性有关;研究复合参数识别度与独立参数识别度、与独立参数相关性之间的关系,发现参数之间相关性的大小在很大程度上预示它们所蕴含的关键蛋白质信息之间互补性的强弱;根据上述发现,探讨利用包括点覆盖在内的各个参数的有限信息进行整合的方法,提出有效的复合参数构造方法及异步识别方法。实验结果证实,通过该技术获得的识别度明显高于其它识别技术。