论文摘要
现实世界的很多复杂系统可以用网络的形式来表达,比如在社会网络和生物网络中,网络中的点表示系统中的实体,网络中的边来表示实体间的关系。随着研究的不断深入,学者们发现实际网络除了具有小世界和幂率分布等统计特性外,还具有社区结构特征。社区内部的节点之间的连接相对紧密,社区之间的连接相对稀疏。寻找复杂网络中社区结构的方法已经成为复杂网络研究的重要内容之一传统的社区发现算法主要是图形分割和层次聚类,层次聚类算法又可以分为两类:凝聚方法和分裂方法。自Newman等人提出用模块度函数来评价社区划分质量后,相继出现了一些基于模块度极值优化的方法。在真实网络中,并不是每个节点都仅属于一个社区,而是存在着重叠社区结构。随后出现了一系列重叠社区划分方法,更加真实地反映网络结构。最近,一些学者利用统计推理的方法来划分重叠社区,其中一个简单的概率算法——SPAEM能很好地发现重叠社区。本文在深入理解SPAEM算法的基础上,通过实验发现该算法存在一些缺陷,比如在大规模网络中效率比较低,随机初始化使得算法容易陷入局部最优解等。首先,对SPAEM算法的时间复杂度进行了详细分析;然后,对算法做了一些改进,降低了算法时间复杂度;此外,为了避免算法陷入局部最优解,本文还提出了种SPAEM算法的初始化方法,使算法可以在更短的时间内获得更好的社区发现结果。基于真实网络和人工网络的实验结果证明了改进算法的有效性。在很多实际网络中,改进算法的社区发现结果要好于其他重叠社区发现算法。在人工网络,尤其是非常稀疏的网络中,改进算法也能得到很好的社区发现结果。
论文目录
致谢中文摘要ABSTRACT1 引言1.1 研究背景及意义1.2 国内外研究现状1.3 研究内容及主要工作1.4 论文的组织结构2 社区发现理论基础2.1 网络的基本性质2.1.1 网络的图表示2.1.2 聚类系数2.1.3 平均路径长度与介数2.1.4 度分布2.2 社区发现算法2.2.1 传统图类及聚类方法2.2.2 分裂方法2.2.3 基于模块度优化方法2.2.4 基于统计推理的方法2.2.5 重叠社区发现算法2.3 社区结构评价标准2.4 小结3 SPAEM概率模型3.1 概率混合模型及参数估计3.1.1 概率混合模型3.1.2 EM算法3.2 SPAEM模型3.2.1 算法思想3.2.2 参数估计3.2.3 重叠节点3.2.4 算法分析3.3 小结4 SPAEM算法改进4.1 模型求解优化4.1.1 SPAEM算法时间复杂度分析4.1.2 EM迭代优化4.2 初始值优化的改进SPAEM算法4.2.1 算法思路4.2.2 初始化方法4.3 小结5 实验及结果分析5.1 实验设置5.2 实验评价标准5.2.1 准确度标准5.2.2 时间复杂度标准5.3 基于真实数据的实验5.3.1 Karate数据集5.3.2 Dolphins数据集5.3.3 Netscienee数据集5.3.4 Power数据集5.3.5 protein-protein数据集5.3.6 Blogs数据集5.3.7 word-assoeitaion数据集5.3.8 PGP数据集5.4 基于人工数据的实验5.5 结果分析5.5.1 基于真实数据的准确率分析5.5.2 基于真实数据的效率分析5.5.3 基于人工数据的结果分析5.6 小结6 结论6.1 论文工作总结6.2 未来的研究工作参考文献学位论文数据集
相关论文文献
标签:复杂网络论文; 社区结构论文; 重叠社区发现论文; 概率模型论文; 算法论文;