论文摘要
伴随着微博平台的开放,大量出于各种目的“僵尸粉”随之产生。这些“僵尸粉”或用于制造虚假的人气,或参与网络营销,或作为某些事件甚至谣言的推手,进而成为人们享受这项服务的困扰,甚至安全隐患。因此,对这种机器生成的“僵尸粉”的识别工作正变得越来越重要。对于僵尸粉识别问题,本文主要做了以下几方面工作:(1)鉴于微博的短文本特征,利用现有文本分析技术处理微博文本存在一定困难。本文利用僵尸粉发帖的内容特征,将文本复制检测技术应用到博文文本特征分析问题中,提出了一种基于信息指纹的微博文本查重技术,并利用此技术实现了僵尸粉的识别。(2)国内外僵尸粉识别研究中缺少对特征识别效力的讨论,本文针对这一问题对常用的几项僵尸粉的识别特征进行了扩展并完成了相应的实验分析,最终给出各个特征识别效力的评估结果;(3)根据特征识别力将僵尸粉识别特征分为强特征与弱特征,进而提出了基于强特征的僵尸粉过滤方法以及基于弱特征的用户信任度投票方法。将两种方法相结合可以给出用户真实性的判断结果。同时,还制定了两种判别机制的多级阈值选取策略。为了检验算法的识别能力,利用标注数据集对其识别效果进行评测,结果显示,该算法对僵尸粉及真实用户都有比较高的识别准确率;(4)从需求角度出发,提出并实现了一种可伸缩的僵尸粉识别架构,并制定了相应的僵尸粉识别服务的定制策略。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题研究背景1.1.1 微博的特点1.1.2 僵尸粉的产生与发展1.2 国内外研究现状1.2.1 社交平台应对僵尸粉的策略1.2.2 僵尸粉识别技术1.3 本文的研究内容1.4 本文的组织结构第二章 相关理论与技术2.1 僵尸粉对微博影响的研究2.1.1 僵尸粉对影响力模型的影响2.1.2 僵尸粉对微博传播的影响2.2 微博文本分析技术2.2.1 文本分类的一般技术2.2.2 微博短文本分析技术2.3 海量数据处理相关技术2.3.1 大数据分析架构2.3.2 Hadoop原理2.4 本章小结第三章 基于信息指纹的僵尸粉微博文本分析方法3.1 僵尸粉用户的微博文本特征3.1.1 僵尸粉的重定义3.1.2 僵尸粉用户的微博文本特征3.2 文本复制检测技术概述3.3 基于信息指纹的微博文本查重算法实现3.3.1 微博指纹库的构建3.3.2 用户博文内容查重3.4 本章小结第四章 多元特征识别力分析4.1 僵尸粉的产生原因及行为特征4.2 僵尸粉识别特征4.2.1 用户账号特征4.2.2 用户关系特征4.2.3 博文特征4.3 实验与分析4.3.1 实验数据集4.3.2 实验结果分析4.4 本章小结第五章 基于特征识别力的僵尸粉识别方法5.1 僵尸粉判别的流程5.2 强特征过滤算法实现5.2.1 真实用户过滤特征阈值选取5.2.2 僵尸粉过滤特征的阈值选取5.2.3 强特征过滤5.3 弱特征投票算法实现5.3.1 特征正向投票阈值的选取5.3.2 特征反向投票阈值的选取5.3.3 弱特征投票5.4 僵尸粉识别结果评测5.5 本章小结第六章 一种僵尸粉分析服务架构的实现6.1 核心模块设计6.1.1 数据采集模块6.1.2 数据存储与处理模块6.1.3 候选特征模块6.1.4 服务模块6.2 服务定制策略6.2.1 单用户判断服务特征定制策略6.2.2 粉丝质量分析服务特征定制策略6.2.3 事件分析服务特征定制策略6.3 本章小结第七章 结束语7.1 全文工作总结7.2 工作展望致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:僵尸粉论文; 特征识别力论文; 信息指纹论文; 强特征论文; 弱特征论文; 信任投票论文;