垃圾邮件过滤理论和关键技术研究

论文摘要

作为Internet的重大“灾难”之一,日益泛滥的垃圾邮件问题引起了人们的普遍关注。自上世纪80年代中期出现首封垃圾邮件以来,各种反垃圾邮件策略与技术也应运而生并得到了迅速发展,至今方兴未艾。然而,研究反垃圾邮件问题已经逐渐把研究者引入到了一个“不确定性花园”。由于对垃圾邮件的判别存在着主观和客观上的不确定性,造成了目前针对垃圾邮件的机器自动分类和过滤技术存在较大的性能瓶颈。经过多年的研究,有很多学者已经注意到利用不确定智能计算技术可以在一定程度上较好地处理实际工程应用中的某些不确定性推理问题,虽然相关研究尚不成熟,但正如很多研究者相信上帝并不是简单地通过掷骰子来创造人类一样,不确定性背后的某些奇妙的确定性规律正吸引着人们不懈地深入探索,并取得了阶段性的研究成果。本文认为不确定智能计算技术在某些层面上,同样可以有效处理垃圾邮件识别过程中存在的诸多主观和客观不确定性问题,因此研究不确定计算理论并应用相关理论改进现有邮件过滤算法和设计新的邮件过滤算法成为了本文的工作重点。不确定智能计算技术的引入,使研究反垃圾邮件问题成为了一件充满乐趣又富有挑战的工作。本文在全面吸取和借鉴目前在不确定智能计算领域和反垃圾邮件领域取得的最新技术成果的基础上,从理论和应用两个层面,深入细致地研究了不确定智能计算理论和反垃圾邮件技术。取得了如下的主要研究成果,包括:1、系统地分析了垃圾邮件问题的背景,指出研究反垃圾邮件技术的理论价值和现实意义。通过跟踪国内外反垃圾邮件技术的最新进展,较全面地归纳概括了现有反垃圾分类技术的发展状况,比较分析了各种方法的优点和不足。指出基于统计理论的不确定智能学习和分类方法是值得深入研究,并能够提高反垃圾邮件技术水平的重要理论手段。2、深入地研究了Bayesian网络理论,提出了一些改进和创新的方法。(1)对于一般复杂网络,提出了一种基于全局消息传播的PPJT算法。新算法可以将推理计算的时间复杂度有效降低,同时能够在较小规模观察样本条件下,保证一般复杂贝叶斯网络推理的精度需求。(2)对于Polytree条件下的复杂Bayesian网络,考虑将推理算法扩展到多机模式,通过分析Polytree条件下的中大型贝叶斯网络的结构,定义新的适用于多处理机环境下的并行证据处理格式,并提出基于多处理机的并行推理算法,为提高Polytree条件下中大型贝叶斯网络的全局证据传播效率提供了一种并行解决方案。(3)研究了不完备证据条件下的参数学习问题,基于标准似然函数构建证据丢失的计算模型,利用χ2距离近似估计证据丢失导致的误差距离,推导出了包含学习率的EM算法。实验结果表明,新算法与传统处理算法相比,在不降低估计精度的前提下具有更快的收敛速度,能够较好地保证不完备证据条件下可信高效的Bayesian网络参数估计。3、提出了一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够比较有效地实现垃圾邮件的分类过滤。4、尝试采用拟合Logistic Regression模型对邮件分类问题建模,并在建模的过程中通过引入偏依赖系数函数模拟了邮件过滤中的偏依赖特性。在不同邮件样本集中的实验结果显示,新的邮件分类模型对垃圾邮件的误报误差和漏报误差具有良好的不对称区分性,因而从算法的层次上实现了具有偏依赖特征的邮件分类器。5、为了规避目前反垃圾邮件技术在文本关联和内容理解方面所存在的诸多困难,提出从另一个角度研究垃圾邮件分类过滤问题,即从垃圾邮件发送者的行为模式角度出发研究邮件类别。通过从邮件发送者的行为紧密相关的邮件特征提取对应特征向量,并应用支持向量机的方法构建分类函数,提出一种基于行为特征的垃圾邮件模式分类模型。经过仿真实验我们发现采用这种全新的行为特征分类模型判定邮件的类别具有较精确的判定效果和较强的鲁棒性。6、构建了一个位于邮件服务器前端的、多层次的垃圾邮件过滤系统—SpamWeeder。SpamWeeder系统集成了本文提出的基于多级属性集的Naive Bayes邮件分类,基于Bayesian网络的邮件分类,基于Logistic回归模型的邮件分类和基于行为特征的邮件分类等多种方法,各种方法之间相互协作、互相补充,形成一个比较准确、快速、高效、易管理和满足不同个性化要求的反垃圾邮件过滤系统。

论文目录

中文摘要

Abstract

第一章绪论

1.1 垃圾邮件问题的背景

1.1.1 垃圾邮件的起源与历史

1.1.2 垃圾邮件的分类

1.2 垃圾邮件问题的现状

1.2.1 垃圾邮件的特点

1.2.2 垃圾邮件问题产生和存在的原因

1.2.3 目前反垃圾邮件存在的主要问题

1.3 主要应对策略

1.4 将不确定智能计算引入到垃圾邮件过滤领域的原因

1.5 本文的主要研究工作

1.6 本文的内容安排

第二章垃圾邮件过滤技术的研究基础

2.1 电子邮件工作原理

2.2 电子邮件协议

2.2.1 RFC 822 邮件格式

2.2.2 SMTP 协议

2.2.3 POP3 协议

2.2.4 IMAP4 协议

2.2.5 MIME 协议

2.3 邮件预处理

2.3.1 邮件分词

2.3.2 邮件表示

2.3.3 特征选择

2.4 常见邮件过滤策略和方法

2.4.1 基于规则的方法

2.4.2 基于统计的方法

2.5 基于多级属性集的 Naive Bayes 邮件分类器

2.5.1 改进算法

2.5.2 改进算法的性能分析与结论

2.6 本章小结

第三章 Bayesian 网络理论研究

3.1 Bayesian 网络概述

3.2 基于全局消息传播的 Bayesian 网络推理

3.2.1 势（potentials）的基本运算

3.2.2 生成连接树

3.2.3 推理原则

3.2.4 全局传播算法

3.2.5 计算实验与结论

3.3 Polytree 条件下的复杂Bayesian 网络推理

3.3.1 Polytree 条件下的证据

3.3.2 消息传递

3.3.3 并行处理算法

3.3.4 算法性能分析比较与结论

3.4 不完备证据条件下的 Bayesian 网络参数学习

3.4.1 基本 Bayesian 参数估计理论

3.4.2 新网络计算模型

3.4.3 参数更新规则

3.4.4 收敛性能分析

3.4.5 仿真试验结果与结论

3.5 本章小结

第四章基于Bayesian 网络的邮件过滤技术

4.1 核密度估计和分类

4.2 Bayesian 邮件特征网络

4.3 分类算法

4.4 邮件分类网络的性能分析和结论

4.5 本章小结

第五章垃圾邮件过滤的偏依赖特征研究

5.1 偏依赖特征的引入

5.2 偏依赖拟合Logistic Regression 模型

5.3 特征提取

5.4 测试与结果

5.4.1 精度性能测试

5.4.2 基于统计方法的分类器精度性能对比

5.4.3 维度选择特性测试

5.4.4 CPD 特性测试

5.4.5 抗扰动性能测试

5.5 本章小结

第六章支持向量机的邮件分类

6.1 线性判别分析的推广

6.2 支持向量分类器

6.3 基于行为特征的SVM 垃圾邮件过滤

6.3.1 基于内容的垃圾邮件过滤技术存在的缺陷

6.3.2 基于行为特征的支持向量分类模型

6.3.3 实验结果与结论

6.4 本章小结

第七章基于不确定学习理论的邮件过滤系统的设计与实现

7.1 设计目标

7.2 系统流程

7.3 系统框架

7.4 模块设计

7.4.1 协议代理模块

7.4.2 预处理模块

7.4.3 过滤模块

7.4.4 数据模块

7.4.5 管理模块

7.5 性能评测

7.6 本章小结

第八章全文总结及未来的工作

8.1 全文总结

8.2 下一步值得研究的课题

8.2.1 概念漂移问题

8.2.2 数据倾斜问题

致谢

参考文献

论文发表和科研奖励情况

垃圾邮件过滤理论和关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢