
论文摘要
互联网中网页和它们之间的链接构成了一个庞大的有向图,称为网络图(Web Graph)。这个图包含了丰富的链接信息和有趣的性质,比如链接数目的幂法则分布,连通域等等。对Web Graph中链接信息的开发,对于Web信息资源的建设、利用和发展都有着重要的意义。中国Web Graph是属于整个互联网全体的一个重要子集,其中包含很多本地化的特征性质,这使得对应的性质和演化以及建模可能有一些的变化。本文通过对天网在2004年的大规模中文网页链接数据的分析,获取了中国Web Graph的静态性质;通过对一百五十个网站的监控,找出中国Web Graph的动态演化信息。最后,本文在以上两个研究结果的基础上,研究了层次化的Web Graph建模方法,并用之解释一些现有的现象。这些研究对于促进中国互联网的发展有十分重要的意义。通过对中国Web Graph中网页连接结构的研究,我们可以从不同方面获取中国Web Graph的各种统计特征和性质,并通过统计网页内容和Web Graph结构的变化了解中国Web上的演化情况。在特征性质方面,本文通过大量数据统计说明了中国Web Graph上入度出度的分布,网站大小,网站入度出度和连通块大小都是服从幂指数分布的。在链接结构方面,本文通过对连通分量的分析,得出了中国Web Graph和全局的异
论文目录
摘要Abstract第一章 概述第二章 相关工作2.1 相关工作概述2.2 Web Graph 性质研究2.3 Web Graph 结构2.4 Web Graph 演化2.5 Web Graph 建模第三章 中国Web Graph 的性质分析3.1 概述3.2 中国Web Graph 的统计数据分布3.3 中国Web Graph 的连通分析3.3.1 连通分析结果3.3.2 强连通分量枚举算法第四章 中国Web Graph 的演化分析4.1 概述4.2 演化统计结果4.3 链接结构的演化第五章 层次化Web Graph 模型5.1 Web Graph 建模概述5.2 偏好依附5.3 层次化Web Graph 模型5.3.1 线性层次化模型5.3.2 线性层次化模型的参数5.4 层次化Web Graph 模型的分析5.4.1 线性层次化模型的入度分布分析5.4.2 线性层次化模型的站点内本地化分析5.5 线性层次化Web Graph 模型的扩展5.5.1 行为扩展5.5.2 非线性化扩展5.5.3 层次扩展5.5.4 基于内容的扩展5.6 线性层次化Web Graph 模型的模拟5.7 线性层次化Web Graph 模型的应用:基于学习的网页爬取策略第六章 总结和展望第七章 参考文献第八章 致谢第九章 在读期间发表的学术论文
相关论文文献
标签:中国论文; 宏观结构论文; 演化论文; 建模论文;