社会网络中用户关系和行为特征的研究与应用

社会网络中用户关系和行为特征的研究与应用

论文摘要

近年来,以短消息服务、社交网站、电子商务为主互联网业务得到强有力的发展。广大的用户被这些服务以特定的方式联系在一起,形成了以用户为节点、用户间联系为边的社会网络。由于用户群体十分广泛,用户间联系错综复杂,造成社会网络规模非常巨大,这给挖掘社会网络中来了极大的挑战。对此,本文的主要工作是真实社会网络的分析与应用研究,重点研究了社会网络中的用户关系和用户行为,分别提出了度量用户关系的计算算法和抽取用户行为的挖掘算法。并结合某省移动公司提供的短信数据,构造短信社会网络,将计算算法应用于度量短信用户关系。基于对短信用户关系的分析,进一步使用挖掘算法抽取了短信用户行为,构建了短信用户行为模型,应用于垃圾短信过滤,并采用特征选择算法,提高了过滤准确率。此外,还提出了优化方案,用于提高过滤的时空效率。社会网络的用户关系以节点间的最短距离表示,距离越短则关系越紧密,反之则越稀疏。针对精确的最短距离计算方法无法适用于大规模社会网络的问题,研究了基于标记点的最短距离估计,提出新的标记点选择策略。与现有的标记点选择策略不同,本文将标记点选择问题转换为组合优化问题,定义了该问题含约束的多目标优化模型。引入遗传算法的交叉和变异算子,提出了改进的多目标粒子群优化算法。为了便于粒子群算法求解,对原问题去约束化,定义了问题的新形式,证明了解的等价性。采用四个真实网络数据集,与现有的标记点选择策略进行比较,结果表明本文提出的选择策略是有效的。此外,按短信发送目的将短信用户分为正常用户和垃圾用户两类,应用提出的标记点选择策略,计算短信用户关系,总结出垃圾用户具有稀疏的用户关系,而正常用户则较为紧密这一规律。基于短信社会网络,构建了用户行为模型,并将此应用于区分正常用户和垃圾用户。用户关系的差异反映了用户的行为是有区别的,以此作为切入点,进一步研究短信用户的收发行为,提取出具有类别区分度的行为特征。在此基础上进行特征选择,结合多种分类器,提出了封装法的多目标优化模型,并采用多目标粒子群优化算法求解。采用过滤法和封装法做实验比较,确立最优特征子集。据此,建立离线垃圾短信过滤模型,用于检测一周内的短信用户。针对处理海量短信数据时的效率瓶颈问题,提出了线性特征统计算法,用于提高过滤模型的时空效率。采用移动公司提供的2个月近25亿条短信数据对模型进行测试。实验结果表明,本文提出的过滤模型满足该公司的各项性能指标要求,并已部署和应用。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景与意义
  • 1.2 国内外研究现状
  • 1.3 本论文主要研究内容
  • 1.4 本论文结构安排
  • 第二章 相关基础概念介绍
  • 2.1 最短距离估计与标记点选择策略
  • 2.2 粒子群优化算法
  • 2.2.1 算法简介
  • 2.2.2 多目标粒子群优化算法
  • 2.3 特征选择算法
  • 2.3.1 基本概念
  • 2.3.2 基于过滤法的特征选择算法
  • 2.3.3 基于封装法的特征选择算法
  • 2.4 本章总结
  • 第三章 社会网络中的用户关系
  • 3.1 引言
  • 3.2 大规模网络中基于标记点的最短距离的估计
  • 3.2.1 距离的三角不等式
  • 3.2.2 基于标记点的最短距离估计
  • 3.3 标记点选择策略的多目标优化问题
  • 3.3.1 基本概念
  • 3.3.2 优化目标
  • 3.3.3 约束条件
  • 3.3.4 问题描述
  • 3.4 多目标优化粒子群智能算法
  • 3.4.1 去约束化与解的等价性
  • 3.4.2 适应值函数及相关定义
  • 3.4.3 算法描述
  • 3.5 实验结果与分析
  • 3.5.1 实验数据集
  • 3.5.2 现有的标记点选择策略
  • 3.5.3 查询准确率与效率
  • 3.6 最短距离估计在短信用户关系中的应用
  • 3.6.1 短信社会网络
  • 3.6.2 短信用户关系
  • 3.7 本章小结
  • 第四章 社会网络中的用户行为特征
  • 4.1 引言
  • 4.2 行为特征在短信社会网络中抽取与分析
  • 4.2.1 基本定义
  • 4.2.2 短信用户行为特征
  • 4.3 封装法中的多目标优化问题
  • 4.3.1 基本概述
  • 4.3.2 优化目标
  • 4.3.3 问题描述
  • 4.3.4 适应值函数及相关定义
  • 4.3.5 算法描述
  • 4.4 实验结果与分析
  • 4.4.1 分类器简介
  • 4.4.2 实验数据集
  • 4.4.3 实验结果
  • 4.5 本章小结
  • 第五章 行为特征在短信过滤中的应用
  • 5.1 离线垃圾短信过滤模型
  • 5.2 运行效率优化
  • 5.2.1 Bloom Filter
  • 5.2.2 线性特征统计算法
  • 5.3 实验结果与分析
  • 5.3.1 时空效率分析
  • 5.3.2 过滤效果分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 个人简历
  • 在学期间的研究成果及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    社会网络中用户关系和行为特征的研究与应用
    下载Doc文档

    猜你喜欢