微博僵尸粉识别技术研究与实现

微博僵尸粉识别技术研究与实现

论文摘要

伴随着微博平台的开放,大量出于各种目的“僵尸粉”随之产生。这些“僵尸粉”或用于制造虚假的人气,或参与网络营销,或作为某些事件甚至谣言的推手,进而成为人们享受这项服务的困扰,甚至安全隐患。因此,对这种机器生成的“僵尸粉”的识别工作正变得越来越重要。对于僵尸粉识别问题,本文主要做了以下几方面工作:(1)鉴于微博的短文本特征,利用现有文本分析技术处理微博文本存在一定困难。本文利用僵尸粉发帖的内容特征,将文本复制检测技术应用到博文文本特征分析问题中,提出了一种基于信息指纹的微博文本查重技术,并利用此技术实现了僵尸粉的识别。(2)国内外僵尸粉识别研究中缺少对特征识别效力的讨论,本文针对这一问题对常用的几项僵尸粉的识别特征进行了扩展并完成了相应的实验分析,最终给出各个特征识别效力的评估结果;(3)根据特征识别力将僵尸粉识别特征分为强特征与弱特征,进而提出了基于强特征的僵尸粉过滤方法以及基于弱特征的用户信任度投票方法。将两种方法相结合可以给出用户真实性的判断结果。同时,还制定了两种判别机制的多级阈值选取策略。为了检验算法的识别能力,利用标注数据集对其识别效果进行评测,结果显示,该算法对僵尸粉及真实用户都有比较高的识别准确率;(4)从需求角度出发,提出并实现了一种可伸缩的僵尸粉识别架构,并制定了相应的僵尸粉识别服务的定制策略。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.1.1 微博的特点
  • 1.1.2 僵尸粉的产生与发展
  • 1.2 国内外研究现状
  • 1.2.1 社交平台应对僵尸粉的策略
  • 1.2.2 僵尸粉识别技术
  • 1.3 本文的研究内容
  • 1.4 本文的组织结构
  • 第二章 相关理论与技术
  • 2.1 僵尸粉对微博影响的研究
  • 2.1.1 僵尸粉对影响力模型的影响
  • 2.1.2 僵尸粉对微博传播的影响
  • 2.2 微博文本分析技术
  • 2.2.1 文本分类的一般技术
  • 2.2.2 微博短文本分析技术
  • 2.3 海量数据处理相关技术
  • 2.3.1 大数据分析架构
  • 2.3.2 Hadoop原理
  • 2.4 本章小结
  • 第三章 基于信息指纹的僵尸粉微博文本分析方法
  • 3.1 僵尸粉用户的微博文本特征
  • 3.1.1 僵尸粉的重定义
  • 3.1.2 僵尸粉用户的微博文本特征
  • 3.2 文本复制检测技术概述
  • 3.3 基于信息指纹的微博文本查重算法实现
  • 3.3.1 微博指纹库的构建
  • 3.3.2 用户博文内容查重
  • 3.4 本章小结
  • 第四章 多元特征识别力分析
  • 4.1 僵尸粉的产生原因及行为特征
  • 4.2 僵尸粉识别特征
  • 4.2.1 用户账号特征
  • 4.2.2 用户关系特征
  • 4.2.3 博文特征
  • 4.3 实验与分析
  • 4.3.1 实验数据集
  • 4.3.2 实验结果分析
  • 4.4 本章小结
  • 第五章 基于特征识别力的僵尸粉识别方法
  • 5.1 僵尸粉判别的流程
  • 5.2 强特征过滤算法实现
  • 5.2.1 真实用户过滤特征阈值选取
  • 5.2.2 僵尸粉过滤特征的阈值选取
  • 5.2.3 强特征过滤
  • 5.3 弱特征投票算法实现
  • 5.3.1 特征正向投票阈值的选取
  • 5.3.2 特征反向投票阈值的选取
  • 5.3.3 弱特征投票
  • 5.4 僵尸粉识别结果评测
  • 5.5 本章小结
  • 第六章 一种僵尸粉分析服务架构的实现
  • 6.1 核心模块设计
  • 6.1.1 数据采集模块
  • 6.1.2 数据存储与处理模块
  • 6.1.3 候选特征模块
  • 6.1.4 服务模块
  • 6.2 服务定制策略
  • 6.2.1 单用户判断服务特征定制策略
  • 6.2.2 粉丝质量分析服务特征定制策略
  • 6.2.3 事件分析服务特征定制策略
  • 6.3 本章小结
  • 第七章 结束语
  • 7.1 全文工作总结
  • 7.2 工作展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    微博僵尸粉识别技术研究与实现
    下载Doc文档

    猜你喜欢