基于内容检索的垃圾邮件过滤器研究与实现

基于内容检索的垃圾邮件过滤器研究与实现

论文摘要

信息化时代,垃圾邮件被认为是最有效和最廉价的广告形式,诱惑一些投机者采用这种新的途径传播信息。垃圾邮件严重干扰人们正常生活,浪费用户的时间、精力,更为严重的是造成信息安全隐患,损害ISP的市场形象,造成无形资产流失,而且垃圾邮件对网络资源消耗和网络安全的危害也越来越大。本文主要研究的是邮件用户代理过滤,即客户端过滤,扩展邮件代理工具Outlook的垃圾邮件过滤功能,实现用户个性化设置。目前以文字方式传播垃圾邮件还是主要的途径之一,因此本文研究的是基于内容检索的垃圾邮件过滤方法。该方法主要分两个阶段,训练阶段和分类阶段。在各个阶段中主要包括五个主要步骤:邮件预处理,文本表示,特征选择,分类预测和评价邮件过滤质量。其中重点研究了两个核心步骤——特征选择和分类预测进行研究。首先分析了八种常用的特征选择方法,如文档频率、信息增益、互信息、CHI统计法、期望交叉熵、文本证据权、优势率和相关性得分。特别是对互信息法进行深入研究后发现:当某一特征词仅在一个类别中出现时,此时互信息值彼此相等,这样导致无法区分它们之间的重要程度。从这一点出发,本文得出改进后的互信息法——利用调整后的TFIDF权重函数对这些特征词再次衡量,使得特征词有了更好的区分类别的能力。此外,本文还对两种常用分类算法进行研究:贝叶斯分类和支持向量机。在实验分析部分,本文选取常用的Ling-Spam标准邮件集。从四个方面对各种算法进行测试,即不同的特征选择方法、维数、分类算法和训练集个数,采用F1值和虚报率对结果进行评价。实验结果表明,改进后的互信息的相比其他算法的稳定性要好。最后以Outlook外接程序形式实现一个垃圾邮件过滤子系统,在实际应用中能满足垃圾邮件过滤功能。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 选题背景和研究意义
  • 1.1.1 选题背景
  • 1.1.2 垃圾邮件的发展史
  • 1.1.3 研究意义
  • 1.2 国内外研究动态
  • 1.3 论文主要内容和章节安排
  • 1.3.1 主要内容
  • 1.3.2 章节安排
  • 2 垃圾过滤的基础知识和相关技术
  • 2.1 垃圾邮件过滤基础知识
  • 2.1.1 电子邮件工作原理
  • 2.1.2 邮件协议
  • 2.2 垃圾邮件过滤手段
  • 2.2.1 基于 IP 层的垃圾邮件过滤
  • 2.2.2 基于 SMTP 协议的垃圾邮件过滤
  • 2.2.3 基于内容的垃圾邮件过滤
  • 2.3 语料库
  • 2.3.1 Spam Assassin 语料
  • 2.3.2 PU 语料
  • 2.3.3 Ling-Spam 语料
  • 2.3.4 Spambase 语料
  • 2.4 本章小结
  • 3 特征选择和分类算法
  • 3.1 邮件过滤模型
  • 3.2 特征选择
  • 3.2.1 传统的特征选择算法
  • 3.2.2 互信息算法的研究
  • 3.2.3 改进的互信息法
  • 3.3 分类算法
  • 3.3.1 常用分类算法
  • 3.3.2 贝叶斯算法
  • 3.3.3 支持向量机
  • 3.4 评价标准
  • 3.5 本章小结
  • 4 客户端垃圾邮件过滤系统的设计与实现
  • 4.1 垃圾邮件过滤系统的设计
  • 4.2 手动过滤子系统的实现
  • 4.2.1 邮件预处理模块
  • 4.2.2 特征选择模块
  • 4.2.3 分类预测模块
  • 4.2.4 用户反馈模块
  • 4.2.5 数据库模块
  • 4.3 自动过滤子系统的实现
  • 4.4 本章小结
  • 5 实验研究和分析
  • 5.1 实验目的
  • 5.2 实验平台和语料
  • 5.3 贝叶斯分类
  • 5.3.1 实验一:训练集为400 封邮件
  • 5.3.2 实验二:训练集为600 封邮件
  • 5.3.3 实验结果分析
  • 5.4 支持向量机分类
  • 5.4.1 实验三:训练集为400 封邮件
  • 5.4.2 实验四:训练集为600 封邮件
  • 5.4.3 实验结果分析
  • 5.5 自动过滤子系统默认参数
  • 5.6 本章小结
  • 6 结论
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  ;  

    基于内容检索的垃圾邮件过滤器研究与实现
    下载Doc文档

    猜你喜欢