基于图挖掘的网络社团结构发现

论文摘要

现实世界的网络里自然地包含了很多社团结构,它们已经成为网络系统中一个重要的统计特征。例如,在社会网络中,它们可能代表着一组俱乐部成员;生物网络里,或许是一组功能相关的基因组;在语意网络中,它们是一些与某个主题相关的网页。通常来讲,社团结构是一些联系紧密的实体,结构内部节点之间的联系相对网络中其它节点更紧密。如何高效地挖掘出这些结构对理解和分析网络结构来说是一个很重要的问题。尽管在网络社团的发现方面已经取得不少研究成果,但仍然存在许多问题有待解决。比如,有些算法的效率不是很高,社团结构的度量机制不够完善;很少有工作去关注重叠的社团结构,虽然重叠的结构在现实的网络中更普遍存在,也更能反映出真实世界的本质。针对这些问题,本文借助一些经典的算法来产生社团结构的种子,然后以拓展种子的方式来挖掘网络中重叠和非重叠的社团结构。本文的主要贡献如下:1.结合多层次策略,文中运用经典的图谱划分方法产生了种子集合,并对种子的特征进行了分析。多层次策略使得算法在计算最粗糙图的Fiedler向量时具有很好的划分速度;谱平分方法帮助算法过程找到很好的图划分线索。这些种子集合抓住了社团结构的主体,反映出了目标社团的特征,具有很好的性能。在真实的网络数据上,文中也对种子选取的合理性做出了验证。2.运用种子拓展的方式提出了一种新颖的社团识别算法。该算法基于模块函数和节点的传递概率。模块函数是由Newman和Cirvan来定义的,它已经成为度量社团结构的一种主流标准。算法用它的改变值来评估新扩展节点对当前种子集合的贡献。传递概率在算法中被用来推断相邻节点之间的联系,反映扩展到新节点的权重。传递概率的源头是种子集合中节点的初始概率(初始权重)。新节点得到的概率决定了计算节点贡献值的次序,贡献值又决定了节点是否具有进一步扩展的机会。第4章对算法过程做出了详细的描述,同时也对扩展过程中节点的删除操作和扩展步上逃逸的概率做出了分析。3.对网络中普遍存在的而又很少被关注的重叠社团结构,文中提出一种识别算法。对解决重叠问题,它开辟了一条新的途径。该算法仍然基于种子扩展。在得到种子集合之后,算法结合随机行走技术给出了一种合理的扩展过程,它用时间步来刻化。在扩展的每个时间步,算法首先计算出所有标准化后的节点概率。按照概率值的降序,所有的节点依次被扫描。然后,确定哪些节点在接下来的时间步里作进一步的扩展。通过节点扫描,算法还要对新扩展的节点作出是否为当前的种子集合贡献者的判断。这些判断主要用于寻找候选社团在当前时间步最优的结构。运用贡献节点的性质,文中给出了一些定理。基于性质定理,一些无用的扩展节点在寻找候选社团的最优结构时可以被安全地删除。扩展过程执行上述步骤直到社团结构之间的重叠率超过了用户的忍受范围或者到达了随机扩展的收敛时间。第5章不仅介绍了算法步骤,也对扩展过程给出了理论分析。分析表明,提出的方法使得候选社团在每个时间步上都能找到最优的结构,基于懒惰随机行走的整个扩展过程也能给种子集合带来好的扩展结构。4.在六个网络数据集上,对上述提出的算法作出了验证。数据集来自真实的网络,规模大小不等,内容涉及多个领域。在实验分析上,文中从多个角度运用多种机制来评估算法。评估内容包括种子选取方式上的对比,算法与相关工作的比较以及时间分析等。对重叠的社团结构,还给出了在著名的网络里发现的实例。实验结果表明文中提出的方法具有一定的优越性,同时也证明了重叠方式对识别完善的社团结构是非常重要的,让大家认识到重叠社团在真实网络中的研究意义。综上所述,本文针对网络中的社团发现问题提出了几种新算法。这些算法采用了种子扩展的方式,扩展过程基于随机行走技术,扩展结构选用了模块函数来度量。文中用理论分析和大量的实验验证了这些算法。结果表明提出的方法能识别出结构完善的社团结构,具有很好的性能。

论文目录

中文摘要

Abstract

图目录

表目录

第一章绪论

1.1 社团结构的定义

1.1.1 自我引用式定义

1.1.2 对比式定义

1.2 社团结构发现问题的研究内容和挑战

1.2.1 研究内容

1.2.2 社团结构发现问题面临的挑战

1.3 本文的主要贡献

1.4 组织结构

第二章网络社团的基本概念和相关工作

2.1 基本概念

2.1.1 网络的矩阵形式

2.1.2 与社团结构相关的定义和性质

2.1.3 社团结构的度量函数

2.2 社团发现问题的相关工作

2.2.1 删除连接边方式

2.2.2 凝聚方式

2.2.3 最大化模块函数方式

2.2.4 谱分析方式

2.2.5 其它方法

2.3 本章小结

第三章多层次策略和随机行走过程

3.1 多层次策略

3.1.1 多层次方法

3.2 种子的产生

3.2.1 粗糙化过程

3.2.2 初始的划分

3.2.3 提炼过程

3.3 种子选取的评估

3.4 随机行走技术

3.4.1 随机行走的概念

3.4.2 随机行走的收敛时间

3.5 随机行走的图划分

3.5.1 带有删除操作的随机行走过程

3.5.2 基于随机行走技术的图划分算法

3.5.3 随机行走过程在图上的切割

3.5.4 随机行走过程的收敛分析

3.6 本章小结

第四章一种基于种子拓展的社团发现新算法

4.1 引言

4.2 预备知识

4.2.1 节点与社团的连接信息

4.2.2 节点的传递概率

4.3 PQ算法

4.3.1 种子节点的初始概率

4.3.2 模块函数的转变值

4.3.3 扩展步骤和节点的概率

4.3.4 扩展过程的收敛

4.4 算法分析

4.4.1 节点的删除

4.4.2 逃逸的概率

4.5 实验分析

4.5.1 六个数据集上实验结果的分析

4.5.2 种子选取的对比

4.5.3 时间测试

4.6 本章小结

第五章网络中重叠社团结构的发现

5.1 引言

5.2 相关工作

5.3 预备知识

5.3.1 模块函数的另一种形式

5.3.2 重叠率

5.4 算法框架

5.5 扩展过程

5.5.1 随机行走扩展和贡献节点

5.5.2 每个时间步候选社团的模块函数计算

5.5.3 扩展过程的界限和收敛时间

5.6 算法分析

5.6.1 每个时间步的Q值计算带来的最优社团结构

5.6.2 整个扩展过程带来的社团结构

5.7 实验结果

5.7.1 种子选取上的对比

5.7.2 重叠社团结构的实例

5.7.3 六个数据集上的实验分析

5.7.4 时间测试

5.7.5 与重叠方式的c-means聚类做对比

5.8 本章小结

第六章总结和展望

6.1 本文工作的总结

6.2 未来工作的展望

参考文献

攻读博士期间发表或完成的论文

致谢

基于图挖掘的网络社团结构发现

论文摘要

论文目录

相关论文文献

猜你喜欢