人类在线行为的实证和建模

人类在线行为的实证和建模

论文摘要

几乎所有的社会和经济系统都是由人构成的,因此定量的理解人类行为的重要性在这里是显而易见的。多亏了信息技术的发展,来自互联网的越来越多的电子记录给予我们很好的机会来理解人类的行为模式。近年来,很多学者已经研究了从邮件通信到短信收发的广泛的人类行为记录。这些研究的一个最主要的结果就是有关人类行为的肥尾性:无论是在个人层次还是在集体层次,人类行为的时间间隔都呈现幂律分布。本文中,我们研究了三套包含不同行为的数据:博客发文,维基修改,书签收藏。在所有这三种行为中,无论是在集体还是个人层次,其时间间隔分布的幂律性都得到了证实。与之前的研究不同,我们重点研究了不同时间尺度下的分布。并发现,即便是对同一组用户,在天以内和天以外两个范围的时间间隔分布都有着不同的幂指数。进一步的,我们还观察到了个人活跃性和分布指数的依赖在这两个不同的区域也存在这相异的趋势。在博客发文行为中,我们发现了相当强的短程相关性,这和之前的结果是完全不同的。并且,这里的相关性系数的衰减也分为两个部分,在阶数k<10的区域为幂律衰减而在阶数k>10的区域为指数。在维基修改行为中,我们发现高强度的天内行为在某种程度上压低了天以外行为的相关性,而导致了其系数被低估。通过去掉天内行为的时间间隔,我们得到了一个强的相关性系数,并且和在博客中发现的衰减规律保持了一致。对在线书签收藏行为的研究中,我们发现在指数较高的区域,其和活跃性的依赖关系并不是单调的,而是在3附近有峰值。我们进一步指出低活跃性用户的全局分布相比高活跃性用户会更接近指数分布。并且通过尺度缩放,我们在天以外的区域得到了一个普遍的行为分布。为了解释以上的观察现象,一个基于个人偏好的模型被我们提出来。在此模型中有两个关键规则:1,在最近的某一段时间内,用户某件事情从事得越多则越倾向于在下一步从事此事;2,用户根据某个固定比率完全随机选择某件事情做。不同于之前所有模型,只是关注分布指数,我们的模型再现了一下所有关键特征:幂律分布,强的短程相关性,分布指数与活跃性的依赖关系。并且我们也讨论了两个不同相关性衰减区域的可能成因。我们认为,这些发现不仅能进一步加深对人类行为的肥尾特性起源的理解,同时也能够在某种程度上更好的解释人类行为中的可预测性问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 数据时代的到来
  • 1.2 Web2.0(博客,维基,美味书签)
  • 1.2.1 博客
  • 1.2.2 维基
  • 1.2.3 社会化书签
  • 1.3 人类动力学的实证
  • 1.3.1 普遍的幂律和标准类
  • 1.3.2 变化的幂指数和相关性系数
  • 1.3.3 人类行为长程变化及其机制的普遍性
  • 1.4 人类动力学模型
  • 1.4.1 优先排队模型
  • 1.4.2 异质联级泊松过程
  • 1.4.3 自适应兴趣模型
  • 1.4.4 其他模型
  • 1.4.5 模型与实证
  • 1.5 人类行为的空间统计特性
  • 1.6 研究意义
  • 第2章 数据的收集和分析
  • 2.1 网络爬虫
  • 2.2 解释性语言Python
  • 2.3 数据库软件Mysql
  • 第3章 博客发文行为的实证和建模
  • 3.1 博客用户特点
  • 3.2 数据描叙
  • 3.3 双幂律发文量分布
  • 3.4 发文时间间隔的统计
  • 3.4.1 集体层次
  • 3.4.2 个人层次
  • 3.5 外部因素的影响
  • 3.6 相关性系数
  • 3.7 暂时性偏好模型
  • 3.8 讨论
  • 第4章 不同时间尺度下行为的异质性
  • 4.1 一致性假设的问题
  • 4.2 数据描述
  • 4.3 基本统计特征
  • 4.4 集体层次
  • 4.4.1 天以内和天以外的幂指数
  • 4.4.2 相异的依赖关系
  • 4.5 个人层次
  • 4.5.1 天以内和天以外的幂指数
  • 4.5.2 被掩盖的相关性
  • 4.5.3 活跃性和相关性
  • 4.6 讨论
  • 第5章 在线收藏行为
  • 5.1 Delicious
  • 5.2 数据描叙
  • 5.3 个人时间间隔分布
  • 5.4 全局时间间隔分布
  • 5.5 幂指数和漂移量
  • 5.6 尺度缩放
  • 5.7 讨论
  • 第6章 总结与问题
  • 参考文献
  • 附录1 基于Python和MySQL的网络爬虫和数据分析
  • 1.1 搭建Python平台
  • 1.2 重要的Python软件包
  • 1.3 一个简单的爬虫
  • 1.4 基于MySQL数据库的分析和统计
  • 附录2 基于Python的拟合
  • 2.1 重要的函数:Scipy.optimize.leastsq()
  • 2.2 幂律函数的拟合
  • 2.3 漂移幂律的拟合
  • 2.4 延展指数的拟合
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    人类在线行为的实证和建模
    下载Doc文档

    猜你喜欢