基于规则的垃圾邮件过滤系统设计与实现

基于规则的垃圾邮件过滤系统设计与实现

论文摘要

随着Internet的发展,电子邮件得到了普及,它的广泛使用给人们的生活带来了极大方便。可是,一些人出于个人私利,利用电子邮件的便利滥发垃圾邮件,不仅消耗了大量的网络资源,还使大量的不良信息通过垃圾邮件得到传播,给社会带来很大危害。因此,反垃圾邮件的研究,在世界范围内得到了迅速而广泛的开展。同时,一些国外的垃圾邮件发送者利用我国作为世界垃圾邮件的中转,严重影响了我国互联网的通信以及国家尊严,我国的垃圾邮件问题,显得尤为重要。因此,反垃圾邮件的研究,对我国乃至全世界具有非常重要的意义。通过对垃圾邮件的分析和处理,本论文设计并实现了一种利用特征抽取与神经网络算法的基于规则的垃圾邮件过滤系统。一般的过滤规则是静态的,不能实时快速的更新。该系统集合了特征抽取与神经网络技术,可以自动提取并“学习”接收到的邮件的特征,对传统静态的规则进行动态的调整和修改,提高了利用此规则过滤垃圾邮件的准确率。最后,本系统利用一个庞大的规则集对电子邮件的各个部分进行比较。每个规则都会增加或减少该电子邮件的“垃圾邮件相似分数”。如果一封邮件具有很高的“垃圾邮件相似分数”的话,则被认定这是一封垃圾邮件。本论文的主要工作包括以下几个部分:1.研究垃圾邮件的特征,主要参考著名的垃圾邮件过滤软件SpamAssassin中的规则文件,以及CCERT发布的中文邮件规则集合,并通过学习和研究特征抽取方法,创新的提出一种符合现状的垃圾信息过滤规则生成方法;2.学习与研究神经网络理论,对得到的邮件规则特征进行分数优化,形成一套完整的邮件规则库,则优化后的规则库中那些已经被证实有效的规则会被赋予较高的权重用以区分垃圾邮件和非垃圾邮件。3.学习与研究现有的模式匹配理论,提出一种较好的规则匹配方法,达到快速而准确的垃圾邮件过滤效果。可以看出,通过本系统既便于添加新的、基于正则表达式的判断规则,又可以正确的优化每一条规则的得分。最后,从实验数据可以看出,本系统也具有较好的过滤效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 垃圾邮件危害及当前状况
  • 1.1.1 垃圾邮件的定义及其危害
  • 1.1.2 我国垃圾邮件的当前状况
  • 1.2 国内外垃圾邮件过滤技术
  • 1.3 论文的目的和意义
  • 1.4 论文主要工作和创新点
  • 1.5 论文的章节安排
  • 第二章 相关技术介绍
  • 2.1 神经网络技术
  • 2.1.1 神经网络算法简介
  • 2.1.2 神经网络算法在垃圾邮件中的应用
  • 2.2 特征提取相关概念及其算法
  • 2.2.1 关键字
  • 2.2.2 IP 黑/白名单/RBL
  • 2.2.3 URL 意图检测检测
  • 2.2.4 DNS 反向查询
  • 2.3 模式匹配
  • 2.3.1 KMP 算法
  • 2.3.2 Boyer-Moore(BM)算法
  • 2.3.3 Aho-Corasic(AC)算法
  • 2.4 小结
  • 第三章 基于规则的垃圾邮件过滤算法研究
  • 3.1 算法的提出
  • 3.2 算法的基本思想
  • 3.3 算法的机制设计
  • 3.3.1 特征提取过程
  • 3.3.2 向量空间表示法
  • 3.3.3 英文文本特征提取方法
  • 3.3.4 中文特征提取方法
  • 3.4 算法具体流程
  • 3.4.1 特征提取
  • 3.4.2 神经网络方法
  • 3.4.3 系统整体流程图
  • 3.5 小结
  • 第四章 垃圾邮件过滤系统设计与实现
  • 4.1 系统背景
  • 4.2 系统设计
  • 4.3 系统实现
  • 4.3.1 规则生成模块
  • 4.3.2 规则优化模块
  • 4.3.3 阈值的确定
  • 4.3.4 规则过滤模块
  • 4.4 小结
  • 第五章 测试与分析
  • 5.1 测试环境
  • 5.1.1 软/硬件配置清单
  • 5.1.2 测试工具
  • 5.2 测试语料集
  • 5.2.1 英文语料库
  • 5.2.2 中文语料库
  • 5.3 评价体系
  • 5.4 系统参数对测试结果的影响
  • 5.4.1 阈值对参数的影响
  • 5.4.2 算法比较
  • 5.5 小结
  • 第六章 总结
  • 6.1 总结
  • 6.2 下一步工作及展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  

    基于规则的垃圾邮件过滤系统设计与实现
    下载Doc文档

    猜你喜欢