垃圾短信过滤关键技术研究

论文摘要

垃圾短信泛滥是近年来困扰运营商和普通用户的一个重大问题。本文针对垃圾短信过滤中的垃圾短信判别问题,利用机器学习领域中的Bayes分类方法、SVM分类方法和社会网络方法,结合短信发送过程中的具体限制性条件,对垃圾短信内容识别和垃圾短信发送用户的识别这两个问题中的关键技术进行了深入的研究。完成的主要工作包括:1、统一垃圾短信过滤模型本文中提出了一个可以解决多种短信发送方式的过滤模型——统一垃圾短信过滤模型。该模型即考虑到了不同发送端短信的具体特征,又尽可能利用现有的针对短信和短信发送用户的短信阻止机制,能够有效地过滤各种类型的垃圾短信,减少改造成本。2、基于多特征的垃圾短信识别算法设计了一种基于多特征的垃圾短信识别算法,综合考虑短信发送的行为特征、短信的文本分词后特征,利用Bayes分类和SVM分类方法分别离线与在线的实现对垃圾短信内容的学习和实时分类;并通过一组基于反馈的自学习机制,使分类器具备增量式学习能力。实验和分析表明:本文的算法相比传统方法在过滤效率和准确率两方面均获得大幅度提升。3、基于社会网络的垃圾短信发送用户识别从社会网络的角度对短信发送问题进行形式化的建模,通过实验验证了短信发送网络所具有的社会性特征,如小世界原理、幂率等,并在此基础上进一步分析和挖掘了垃圾短信用户在网络上发送接收的异常模式和行为,并以此提出了一个基于语音关联程度和短信回复比率的过滤算法(NASFA算法)。实验和分析表明:算法不仅能够高效的识别垃圾短信发送号码,同时能够有效的控制将正常用户误识别为垃圾短信用户的比率。4、基于位置特征的垃圾短信发送用户识别对于垃圾短信发送者而言,其在地理位置上具有明显的特征。据此提出了一个利用位置特征和短信发送内容的垃圾短信发送用户识别算法。5、面向网络端发送短信的快速匹配过滤算法针对网络端发送的短信具有发送速度快、发送频率变化范围大、不具备社会性特征和分类特征过少等特点,本文提出了一种适用于网络端口发送类垃圾短信的监控和过滤解决方案,通过编码预处理算法来克服反过滤干扰手段,并根据短信日发送数量、短信内容等特征,采用模糊匹配和频度监控相结合的方法动态进行短信过滤。此外,还引入了关键字加权控制频度方法,根据短信长度修正过滤的阀值。最后对全文进行概括性总结,并指出了下一步重点需要研究和突破的方向。

论文目录

摘要

Abstract

第1章绪论

1.1 引言

1.2 短信相关背景介绍

1.2.1 短信业务及发送原理介绍

1.2.2 短信业务在中国的发展趋势

1.2.3 垃圾短信产生的背景

1.2.4 垃圾短信的发送方式

1.2.5 垃圾短信的特征

1.2.6 垃圾短信的统计分类

1.3 本文的主要工作和贡献

1.4 本文的组织结构

第2章垃圾短信过滤相关工作进展

2.1 垃圾短信监控和过滤的技术框架

2.1.1 国内外垃圾短信监控和过滤的研究现状

2.1.2 垃圾短信监控和过滤的三种实现机制

2.2 短信阻止机制

2.2.1 内容关键字过滤机制

2.2.2 号码黑白名单过滤机制

2.3 垃圾短信和垃圾短信发送用户识别方法

2.3.1 文本分类过滤方法

2.3.2 社会网络过滤

第3章基于多特征学习的垃圾短信过滤

3.1 相关工作

3.1.1 现有垃圾短信监控方案

3.1.2 相关关键技术研究现状

3.2 关键技术和算法

3.2.1 短信特征分析

3.2.2 基于朴素贝叶斯方法的在线短信过滤

3.2.3 基于支持向量机（SVM）的离线短信过滤

3.3 系统设计方案

3.3.1 基于特征过滤子系统

3.3.2 基于内容过滤子系统

3.3.3 系统应用部署

3.4 实验结果

3.5 本章小结

第4章基于社会网络的垃圾短信发送用户识别

4.1 短信网络特性分析

4.1.1 网络的形式化描述与定义

4.1.2 短信网络的小世界特性

4.1.3 无标度网络特性

4.2 垃圾短信发送模式

4.2.1 短信发送与通话网络的相关性分析

4.2.2 短信网络回复分析

4.3 垃圾短信发送用户识别算法

4.4 实验与讨论

4.4.1 实验

4.4.2 讨论

4.5 本章小结

第5章基于位置特征的垃圾短信过滤

5.1 相关背景知识

5.2 基于位置特征的过滤系统及算法

5.2.1 内容表示

5.2.2 短信分类

5.2.3 基于位置特征的垃圾短信过滤算法

5.3 实验

5.4 本章小结

第6章快速匹配垃圾短信过滤

6.1 网络端垃圾短信现状分析及其相关对策

6.1.1 网络端发送短信特征

6.1.2 现有短信中心过滤算法及其不足

6.2 基于快速匹配的高效网络端垃圾短信过滤

6.2.1 短信内容预处理算法

6.2.2 关键字加权控制发送频度算法

6.2.3 短信内容长度对发送频度的修正算法

6.2.4 应用效果

6.3 本章小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

攻读博士学位期间主要的研究成果

学术论文

发明专利

参与的科研项目

获奖项目

致谢

个人简历

垃圾短信过滤关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢