论文摘要
微博作为近几年来最热门的社交网络平台之一,其用户数量、用户活跃度、都以惊人的速度持续增长着。微博上的信息传播具有核裂变式的特点,信息产生速度快、传播速度快。微博的自媒体特性使得每个人都有在互联网上制造和快速传播自己观点的能力。在微博用户中,少数有影响力的用户担任着话题领袖的角色,他们利用自身的影响力推动信息的传播、影响公众的舆论。对微博用户的影响力进行分析,不仅可以用于广告投放、公关推广、市场营销、信息推荐等领域,还能给微博网上的舆情监控提供一种有效的解决途径。目前关于微博用户影响力分析有很多相关研究,其中通过粉丝数、转发数、用户活跃度等指标评定用户影响力是一种常见的简便的方法。更多的研究则借鉴网页排序算法,通过随机游走模拟用户在微博平台上的浏览行为,设计微博用户影响力评估算法,得到用户的影响力。目前的微博用户影响力评估大多针对用户的综合影响力,而没有对用户的影响力进行进一步的划分。用户在不同的领域和行业的活跃度不同,其影响力大小也存在区别。本文提出一种针对特定话题域的微博用户影响力评估算法,通过对用户发布的微博中的文本内容进行分析,提取话题特征向量,得到用户在特定话题下的话题信息量,用余弦夹角公式计算用户的话题相似性;结合用户间的转发关系,设计特定话题域的微博用户影响力分析算法算法,得到用户在特定话题域下的影响力排名。主要工作和创新点包括:1.通过构造特定话题域的特征词库,对用户发表的微博文本内容进行语义分析,提取用户的话题特征向量,计算用户的话题信息量。并通过用户的话题特征向量,计算用户间的话题相似性。2.基于PageRank算法设计特定话题域的微博用户影响力分析算法算法,在转发网络中进行随机游走,并基于用户话题相似性设置网络中的转移概率,基于用户的话题信息量设置网络中随机跳转概率,迭代计算,得到特定话题域的用户影响力排名。3.基于Hadoop分布式平台搭建影响力分析系统,用HDFS分布式系统存储从互联网上爬取的微博数据,并基于MapReduce编程思想实现影响力分析的各个模块。通过实验对新浪微博用户计算在“国内时政热点”领域的影响力排名,分析实验结果并与其它影响力分析算法对比,评价算法的性能。并通过对不同节点数的Hadoop集群进行算法性能测试,验证了算法在Hadoop分布式实验平台中具有极强的数据吞吐量和强大的计算性能。