Print

基于加权边介数的Web社区发现方法

论文摘要

Web是一个典型的复杂网络。Web在发展的过程中存在着大量的社区,这些社区是Web组织中非常重要的信息。Web社区提供了特定主题下的相关资源,可以为用户提供有价值的、可靠的、及时的信息。Web社区代表了Web中的社会活动,对社区的深入研究可以了解Web中知识信息及其组织结构的发展状况。发现Web社区对提高用户查询效率及实现网页分类有着重要意义。本文对已有的基于链接结构的Web社区发现算法进行了分类,并通过对三种典型的Web社区发现技术的理论与实验分析发现已有算法发现的社区结果的网页之间链接不是很紧密,而且会出现一定的主题漂移现象。根据Web的复杂网络特征,本文提出了一种改进的发现特定主题Web社区的GN算法。该算法利用莱温斯坦距离衡量Web页面与查询主题及Web页面间的相似度。将网页的title与查询主题的相似性作为网页节点的权值,将有链接关系的两个网页的title之间的相似性作为这两个网页之间相连的边的权值。然后利用GN算法对网络拓扑图进行分割,根据分裂过程中是否产生新的连通分量来指导边介数的计算。改进的GN算法的复杂度明显降低。同时本文提出了社区密度和社区平均相似度的概念来衡量社区质量,并作为选择最接近主题社区的依据。为了评价改进的GN算法的性能,本文将该算法与基于链接分析的发现特定主题社区的主要算法HITS和最大流进行了比较。本文详细论述了实现平台系统的搭建,包括实验数据集的收取与处理、算法实现及社区结果的可视化。实验结果表明,改进的GN算法所发现的特定主题社区与HITS算法和最大流算法发现的社区比较,多数情况下主题相关度提高14%。

论文目录

  • 摘要
  • Abstract
  • 引言
  • 1 Web数据挖掘及其链接分析研究
  • 1.1 Web数据挖掘
  • 1.1.1 Web数据挖掘概述
  • 1.1.2 Web数据挖掘分类
  • 1.2 搜索引擎
  • 1.2.1 搜索引擎原理
  • 1.2.2 Web社区与搜索引擎
  • 1.3 Web链接分析
  • 1.3.1 互联网结构的自组织性
  • 1.3.2 PageRank算法
  • 1.3.3 HITS算法
  • 1.3.4 超链接算法的分类及评价
  • 2 改进的发现特定主题Web社区的GN算法
  • 2.1 Web社区发现
  • 2.1.1 Web社区定义
  • 2.1.2 基于有向二分图的技术
  • 2.1.3 基于最大流的技术
  • 2.1.4 基于HITS算法
  • 2.1.5 基于K完全子图连边密度的技术
  • 2.2 社区发现技术的总结
  • 2.3 复杂网络中的社区发现
  • 2.4 基于加权边介数的社区发现算法
  • 2.5 社区结果的可视化
  • 3 实验
  • 3.1 实验预处理
  • 3.1.1 主题信息搜索系统——Focused Crawler
  • 3.1.2 实验数据集的收集与处理
  • 3.2 实验流程
  • 3.2.1 构建原始的Web图
  • 3.2.2 构建剪枝处理后的Web图
  • 3.2.3 算法实体
  • 3.2.4 社区结果的选取
  • 3.2.5 社区结果可视化
  • 3.3 与其他算法对比
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/418ca6b9d212f29d2c3c4fcc.html