特定话题域的微博用户影响力研究与实现

特定话题域的微博用户影响力研究与实现

论文摘要

微博作为近几年来最热门的社交网络平台之一,其用户数量、用户活跃度、都以惊人的速度持续增长着。微博上的信息传播具有核裂变式的特点,信息产生速度快、传播速度快。微博的自媒体特性使得每个人都有在互联网上制造和快速传播自己观点的能力。在微博用户中,少数有影响力的用户担任着话题领袖的角色,他们利用自身的影响力推动信息的传播、影响公众的舆论。对微博用户的影响力进行分析,不仅可以用于广告投放、公关推广、市场营销、信息推荐等领域,还能给微博网上的舆情监控提供一种有效的解决途径。目前关于微博用户影响力分析有很多相关研究,其中通过粉丝数、转发数、用户活跃度等指标评定用户影响力是一种常见的简便的方法。更多的研究则借鉴网页排序算法,通过随机游走模拟用户在微博平台上的浏览行为,设计微博用户影响力评估算法,得到用户的影响力。目前的微博用户影响力评估大多针对用户的综合影响力,而没有对用户的影响力进行进一步的划分。用户在不同的领域和行业的活跃度不同,其影响力大小也存在区别。本文提出一种针对特定话题域的微博用户影响力评估算法,通过对用户发布的微博中的文本内容进行分析,提取话题特征向量,得到用户在特定话题下的话题信息量,用余弦夹角公式计算用户的话题相似性;结合用户间的转发关系,设计特定话题域的微博用户影响力分析算法算法,得到用户在特定话题域下的影响力排名。主要工作和创新点包括:1.通过构造特定话题域的特征词库,对用户发表的微博文本内容进行语义分析,提取用户的话题特征向量,计算用户的话题信息量。并通过用户的话题特征向量,计算用户间的话题相似性。2.基于PageRank算法设计特定话题域的微博用户影响力分析算法算法,在转发网络中进行随机游走,并基于用户话题相似性设置网络中的转移概率,基于用户的话题信息量设置网络中随机跳转概率,迭代计算,得到特定话题域的用户影响力排名。3.基于Hadoop分布式平台搭建影响力分析系统,用HDFS分布式系统存储从互联网上爬取的微博数据,并基于MapReduce编程思想实现影响力分析的各个模块。通过实验对新浪微博用户计算在“国内时政热点”领域的影响力排名,分析实验结果并与其它影响力分析算法对比,评价算法的性能。并通过对不同节点数的Hadoop集群进行算法性能测试,验证了算法在Hadoop分布式实验平台中具有极强的数据吞吐量和强大的计算性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 微博平台
  • 1.1.2 微博话题域
  • 1.1.3 用户影响力
  • 1.2 研究意义
  • 1.3 本文主要工作
  • 1.4 论文结构
  • 第二章 相关研究工作
  • 2.1 微博信息传播分析
  • 2.1.1 微博信息传播特性分析
  • 2.1.2 微博中的话题传播
  • 2.2 微博用户特性分析
  • 2.2.1 微博用户特性分析
  • 2.2.2 微博用户间交互行为分析
  • 2.3 微博用户影响力分析
  • 2.3.1 传播学中影响力的研究
  • 2.3.2 基于用户行为的影响力研究
  • 2.3.3 基于机器学习方法的影响力研究
  • 2.3.4 基于网络拓扑结构的影响力研究
  • 2.4 本章小结
  • 第三章 微博用户话题特征提取
  • 3.1 问题描述
  • 3.2 相关研究
  • 3.2.1 向量空间模型
  • 3.2.2 文本特征提取
  • 3.3 微博用户话题特征分析
  • 3.3.1 特定话题域特征词集构造
  • 3.3.2 用户话题特征向量提取
  • 3.3.3 用户话题信息量计算
  • 3.3.4 用户间话题相似性计算
  • 3.4 本章总结
  • 第四章 特定话题域微博用户影响力分析
  • 4.1 问题描述
  • 4.2 相关研究
  • 4.2.1 PageRank
  • 4.2.2 Topic Sensitive PageRank
  • 4.2.3 Twitter Rank
  • 4.3 特定话题域微博用户影响力分析算法
  • 4.4 本章总结
  • 第五章 影响力分析系统设计与实现
  • 5.1 Hadoop分布式系统简介
  • 5.1.1 HDFS分布式数据系统
  • 5.1.2 MapReduce原理
  • 5.2 影响力分析系统设计与实现
  • 5.2.1 Hadoop集群搭建
  • 5.2.2 数据获取与存储模块设计与实现
  • 5.2.3 数据分析模块设计与实现
  • 5.3 本章总结
  • 第六章 实验及结果分析
  • 6.1 话题域特征词集构造
  • 6.2 微博数据集获取与分析
  • 6.3 特定话题域用户影响力分析
  • 6.3.1 用户话题特征分析
  • 6.3.2 用户转发网络分析
  • 6.3.3 用户影响力排名分析
  • 6.4 影响力分析算法对比
  • 6.5 Hadoop实验平台算法性能测试
  • 6.6 本章总结
  • 第七章 结论与展望
  • 7.1 工作总结
  • 7.2 研究展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 作者在学期间参加的科研工作
  • 相关论文文献

    标签:;  ;  ;  ;  

    特定话题域的微博用户影响力研究与实现
    下载Doc文档

    猜你喜欢