论文摘要
近年来,以短消息服务、社交网站、电子商务为主互联网业务得到强有力的发展。广大的用户被这些服务以特定的方式联系在一起,形成了以用户为节点、用户间联系为边的社会网络。由于用户群体十分广泛,用户间联系错综复杂,造成社会网络规模非常巨大,这给挖掘社会网络中来了极大的挑战。对此,本文的主要工作是真实社会网络的分析与应用研究,重点研究了社会网络中的用户关系和用户行为,分别提出了度量用户关系的计算算法和抽取用户行为的挖掘算法。并结合某省移动公司提供的短信数据,构造短信社会网络,将计算算法应用于度量短信用户关系。基于对短信用户关系的分析,进一步使用挖掘算法抽取了短信用户行为,构建了短信用户行为模型,应用于垃圾短信过滤,并采用特征选择算法,提高了过滤准确率。此外,还提出了优化方案,用于提高过滤的时空效率。社会网络的用户关系以节点间的最短距离表示,距离越短则关系越紧密,反之则越稀疏。针对精确的最短距离计算方法无法适用于大规模社会网络的问题,研究了基于标记点的最短距离估计,提出新的标记点选择策略。与现有的标记点选择策略不同,本文将标记点选择问题转换为组合优化问题,定义了该问题含约束的多目标优化模型。引入遗传算法的交叉和变异算子,提出了改进的多目标粒子群优化算法。为了便于粒子群算法求解,对原问题去约束化,定义了问题的新形式,证明了解的等价性。采用四个真实网络数据集,与现有的标记点选择策略进行比较,结果表明本文提出的选择策略是有效的。此外,按短信发送目的将短信用户分为正常用户和垃圾用户两类,应用提出的标记点选择策略,计算短信用户关系,总结出垃圾用户具有稀疏的用户关系,而正常用户则较为紧密这一规律。基于短信社会网络,构建了用户行为模型,并将此应用于区分正常用户和垃圾用户。用户关系的差异反映了用户的行为是有区别的,以此作为切入点,进一步研究短信用户的收发行为,提取出具有类别区分度的行为特征。在此基础上进行特征选择,结合多种分类器,提出了封装法的多目标优化模型,并采用多目标粒子群优化算法求解。采用过滤法和封装法做实验比较,确立最优特征子集。据此,建立离线垃圾短信过滤模型,用于检测一周内的短信用户。针对处理海量短信数据时的效率瓶颈问题,提出了线性特征统计算法,用于提高过滤模型的时空效率。采用移动公司提供的2个月近25亿条短信数据对模型进行测试。实验结果表明,本文提出的过滤模型满足该公司的各项性能指标要求,并已部署和应用。
论文目录
相关论文文献
标签:社会网络论文; 最短距离论文; 行为特征论文; 短信过滤论文; 多目标粒子群优化论文;