Print

中国Web Graph的性质,演化和建模

论文摘要

互联网中网页和它们之间的链接构成了一个庞大的有向图,称为网络图(Web Graph)。这个图包含了丰富的链接信息和有趣的性质,比如链接数目的幂法则分布,连通域等等。对Web Graph中链接信息的开发,对于Web信息资源的建设、利用和发展都有着重要的意义。中国Web Graph是属于整个互联网全体的一个重要子集,其中包含很多本地化的特征性质,这使得对应的性质和演化以及建模可能有一些的变化。本文通过对天网在2004年的大规模中文网页链接数据的分析,获取了中国Web Graph的静态性质;通过对一百五十个网站的监控,找出中国Web Graph的动态演化信息。最后,本文在以上两个研究结果的基础上,研究了层次化的Web Graph建模方法,并用之解释一些现有的现象。这些研究对于促进中国互联网的发展有十分重要的意义。通过对中国Web Graph中网页连接结构的研究,我们可以从不同方面获取中国Web Graph的各种统计特征和性质,并通过统计网页内容和Web Graph结构的变化了解中国Web上的演化情况。在特征性质方面,本文通过大量数据统计说明了中国Web Graph上入度出度的分布,网站大小,网站入度出度和连通块大小都是服从幂指数分布的。在链接结构方面,本文通过对连通分量的分析,得出了中国Web Graph和全局的异

论文目录

  • 摘要
  • Abstract
  • 第一章 概述
  • 第二章 相关工作
  • 2.1 相关工作概述
  • 2.2 Web Graph 性质研究
  • 2.3 Web Graph 结构
  • 2.4 Web Graph 演化
  • 2.5 Web Graph 建模
  • 第三章 中国Web Graph 的性质分析
  • 3.1 概述
  • 3.2 中国Web Graph 的统计数据分布
  • 3.3 中国Web Graph 的连通分析
  • 3.3.1 连通分析结果
  • 3.3.2 强连通分量枚举算法
  • 第四章 中国Web Graph 的演化分析
  • 4.1 概述
  • 4.2 演化统计结果
  • 4.3 链接结构的演化
  • 第五章 层次化Web Graph 模型
  • 5.1 Web Graph 建模概述
  • 5.2 偏好依附
  • 5.3 层次化Web Graph 模型
  • 5.3.1 线性层次化模型
  • 5.3.2 线性层次化模型的参数
  • 5.4 层次化Web Graph 模型的分析
  • 5.4.1 线性层次化模型的入度分布分析
  • 5.4.2 线性层次化模型的站点内本地化分析
  • 5.5 线性层次化Web Graph 模型的扩展
  • 5.5.1 行为扩展
  • 5.5.2 非线性化扩展
  • 5.5.3 层次扩展
  • 5.5.4 基于内容的扩展
  • 5.6 线性层次化Web Graph 模型的模拟
  • 5.7 线性层次化Web Graph 模型的应用:基于学习的网页爬取策略
  • 第六章 总结和展望
  • 第七章 参考文献
  • 第八章 致谢
  • 第九章 在读期间发表的学术论文
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/005c6c5abd1d74400bd294b4.html