垃圾邮件行为模式识别与过滤方法研究

垃圾邮件行为模式识别与过滤方法研究

论文摘要

电子邮件已经成为现代人际交流的一种最常见的方式。但是,SMTP(SimpleMail Transfer Protocol:简单邮件传输协议)协议的不完善,尤其是对电子邮件发送者没有做任何的身份鉴别和控制,使得垃圾邮件越来越泛滥。垃圾邮件过滤是个复杂的问题,虽然存在许多相关研究,也获得了很多成果,但是在技术上目前还没有哪一种方法能完美地过滤所有的垃圾邮件。随着伪装技术的发展,垃圾邮件也越来越隐晦,致使基于内容过滤的误判率也很高,而对大量疑似垃圾邮件,基于内容的过滤也耗费了大量的处理时间。因此,必须寻求新的方法和算法。提出了基于数据挖掘的行为识别垃圾邮件过滤系统框架。对采集的数据提取行为特征,并将行为特征分为会话行为特征、信头行为特征和统计行为特征,采用特征选择算法选择能够有效地预测训练数据类属性的特征,经数据预处理,从数据中挖掘出垃圾邮件行为判定规则的知识。提出了基于多级结构的垃圾邮件行为模式挖掘模型,针对不同类型的行为特征,采用不同的模式挖掘算法:对MTA(Mail Transport Agent:邮件传输代理)会话阶段的行为特征,提出了基于决策树的垃圾邮件发送行为识别模型。它不需要接收整封邮件,通过挖掘邮件会话过程中所表现出的行为特征,在会话阶段提前过滤掉垃圾邮件。对用户发送行为采用直方图距离法来检测异常用户发送行为。通过计算附件的指纹特征、统计特征,构建附件的特征向量,利用支持向量机模型来对垃圾邮件的附件行为建模。计算URL(uniform Resource Locator:统一资源定位)之间的相似度,构建包含相似URL的群组,通过计算样本与URL群组的最小距离并转换成分类输出的置信度来判别垃圾邮件行为。由于传统的贝叶斯垃圾邮件过滤在误判和漏判带来的损失方面没有进行关注,提出了一种贝叶斯算法的改进算法,引入了损失因子,在不降低正确率的情况下,使得垃圾邮件误判的风险减到最低。若选择合适的损失因子,正确率和召回率都能达到一个比较理想的效果。利用该算法将各模型判别结果关联起来,通过对联合贝叶斯模型和附件模型、发送发送行为模型、URL模型的性能比较,验证了改进的贝叶斯联合模型相对单个模型来说,能够较大地提高分类性能。提出了基于模糊决策树的分类方法。由于绝对明确的属性并不总是存在于现实世界中,属性隶属度能更自然和合理地描述行为特征,因此相对于清晰决策树来说,模糊决策树更适合。模糊决策树算法使得决策树学习的应用范围扩大从而能够处理不确定性,它合理地处理了学习和推理过程中的不精确信息,具有更强的分类能力及稳健性,由于能生成不同水平和不同置信度的规则,为决策者提供丰富的决策信息。设计了基于行为模式识别和其它过滤技术相结合的邮件过滤系统MailGate,并进行了原型实现。实验结果表明MailGate对垃圾邮件过滤的召回率和误判率能够达到较好的效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 电子邮件系统的安全缺陷
  • 1.3 反垃圾邮件国内外研究现状
  • 1.4 评价体系
  • 1.5 论文的主要研究内容
  • 1.6 论文的组织结构
  • 1.7 本章小结
  • 2 基于数据挖掘的行为识别邮件过滤体系结构
  • 2.1 基于行为的垃圾邮件过滤框架
  • 2.2 邮件行为数据采集
  • 2.3 行为特征提取
  • 2.4 特征项选择
  • 2.5 行为特征数据预处理
  • 2.6 邮件行为模式挖掘
  • 2.7 本章小结
  • 3 行为特征分析与建模
  • 3.1 引言
  • 3.2 MTA会话行为模式挖掘
  • 3.3 用户发送行为
  • 3.4 URL模型
  • 3.5 附件模型
  • 3.6 最小风险贝叶斯算法的联合模型
  • 3.7 本章小结
  • 4 基于FDT算法的垃圾邮件过滤
  • 4.1 引言
  • 4.2 模糊逻辑与模糊决策树
  • 4.3 基于FDT的分类
  • 4.4 实验及结果
  • 4.5 本章小结
  • 5 MailGate邮件过滤系统设计与实现
  • 5.1 引言
  • 5.2 系统框架
  • 5.3 模块设计
  • 5.4 性能测评
  • 5.5 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 附录1 攻读学位期间发表的论文目录和从事科研项目
  • 附录2 攻读博士学位期间参加研究的科研项目
  • 相关论文文献

    • [1].河南2017年出境邮件平均每天9万件[J]. 广东交通 2018(01)
    • [2].疑难邮件七步查询投递法的应用与实践[J]. 邮政研究 2020(01)
    • [3].复工邮件要这样写,才能稳住订单和客户[J]. 进出口经理人 2020(03)
    • [4].垃圾邮件会在2020年消失吗[J]. 计算机与网络 2020(04)
    • [5].政务邮件系统安全第三方评价方法研究[J]. 保密科学技术 2020(01)
    • [6].基于R语言的支持向量机在信息安全与垃圾邮件识别中的应用[J]. 机电工程技术 2016(12)
    • [7].卡巴斯基发布 第三季度垃圾邮件和钓鱼攻击报告[J]. 计算机与网络 2015(24)
    • [8].速递邮件全环节信息化分拣路径及改革措施[J]. 内蒙古科技与经济 2016(03)
    • [9].图像型垃圾邮件检测技术的研究[J]. 电脑编程技巧与维护 2015(17)
    • [10].一枚福建罗山空军的专属“免费军事邮件”戳记[J]. 集邮博览 2019(12)
    • [11].火箭邮件的兴衰[J]. 上海集邮 2020(08)
    • [12].“无预告信息”退回邮件是怎么回事?[J]. 集邮博览 2020(09)
    • [13].邮件[J]. 初中生学习指导 2019(07)
    • [14].火眼金睛 认准垃圾邮件[J]. 电脑爱好者 2009(02)
    • [15].给我6秒,我能收回不该发出的邮件[J]. 电脑爱好者 2009(09)
    • [16].你有新邮件 电脑大声告诉你[J]. 电脑爱好者(普及版) 2009(05)
    • [17].为重要邮件写备注[J]. 电脑迷 2010(02)
    • [18].看过我的邮件后还想骗我 没门儿[J]. 电脑迷 2010(06)
    • [19].职场新鲜人邮件礼仪宝典[J]. 电脑爱好者 2010(10)
    • [20].撤回邮件时间更足[J]. 电脑迷 2010(18)
    • [21].3招清扫信箱 远离垃圾邮件[J]. 电脑爱好者 2010(16)
    • [22].清除多余未读邮件[J]. 电脑迷 2010(24)
    • [23].再简单一点点 邮件也能写日记[J]. 电脑迷 2011(10)
    • [24].制定规则 实现邮件管理自动化[J]. 电脑爱好者 2011(17)
    • [25].已发送邮件 自动保存没商量[J]. 电脑爱好者 2011(19)
    • [26].利用邮件组实现群体发送[J]. 电脑迷 2011(24)
    • [27].阅否 简易的邮件追踪服务[J]. 电脑迷 2012(20)
    • [28].跟踪监控你的邮件[J]. 电脑迷 2014(04)
    • [29].变废为宝 向垃圾邮件学习[J]. 电脑爱好者 2013(22)
    • [30].与垃圾邮件亲密接触[J]. 现代计算机(普及版) 2008(08)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    垃圾邮件行为模式识别与过滤方法研究
    下载Doc文档

    猜你喜欢