论文摘要
几乎所有的社会和经济系统都是由人构成的,因此定量的理解人类行为的重要性在这里是显而易见的。多亏了信息技术的发展,来自互联网的越来越多的电子记录给予我们很好的机会来理解人类的行为模式。近年来,很多学者已经研究了从邮件通信到短信收发的广泛的人类行为记录。这些研究的一个最主要的结果就是有关人类行为的肥尾性:无论是在个人层次还是在集体层次,人类行为的时间间隔都呈现幂律分布。本文中,我们研究了三套包含不同行为的数据:博客发文,维基修改,书签收藏。在所有这三种行为中,无论是在集体还是个人层次,其时间间隔分布的幂律性都得到了证实。与之前的研究不同,我们重点研究了不同时间尺度下的分布。并发现,即便是对同一组用户,在天以内和天以外两个范围的时间间隔分布都有着不同的幂指数。进一步的,我们还观察到了个人活跃性和分布指数的依赖在这两个不同的区域也存在这相异的趋势。在博客发文行为中,我们发现了相当强的短程相关性,这和之前的结果是完全不同的。并且,这里的相关性系数的衰减也分为两个部分,在阶数k<10的区域为幂律衰减而在阶数k>10的区域为指数。在维基修改行为中,我们发现高强度的天内行为在某种程度上压低了天以外行为的相关性,而导致了其系数被低估。通过去掉天内行为的时间间隔,我们得到了一个强的相关性系数,并且和在博客中发现的衰减规律保持了一致。对在线书签收藏行为的研究中,我们发现在指数较高的区域,其和活跃性的依赖关系并不是单调的,而是在3附近有峰值。我们进一步指出低活跃性用户的全局分布相比高活跃性用户会更接近指数分布。并且通过尺度缩放,我们在天以外的区域得到了一个普遍的行为分布。为了解释以上的观察现象,一个基于个人偏好的模型被我们提出来。在此模型中有两个关键规则:1,在最近的某一段时间内,用户某件事情从事得越多则越倾向于在下一步从事此事;2,用户根据某个固定比率完全随机选择某件事情做。不同于之前所有模型,只是关注分布指数,我们的模型再现了一下所有关键特征:幂律分布,强的短程相关性,分布指数与活跃性的依赖关系。并且我们也讨论了两个不同相关性衰减区域的可能成因。我们认为,这些发现不仅能进一步加深对人类行为的肥尾特性起源的理解,同时也能够在某种程度上更好的解释人类行为中的可预测性问题。