基于Rough集的垃圾邮件过滤技术的研究与应用

基于Rough集的垃圾邮件过滤技术的研究与应用

论文摘要

随着互联网上邮件的广泛使用,垃圾邮件的问题变得日益严重,它不仅消耗网络带宽和计算机时空开销,而且会对企业的正常运行和用户的正常工作造成严重的干扰。要解决垃圾邮件问题,必须综合法律、技术等手段。目前,国内外垃圾邮件过滤的技术有黑白名单技术、基于关键词匹配技术,以及基于内容的垃圾邮件过滤技术等等。本文对基于内容的垃圾邮件过滤技术研究现状进行了详细的介绍。它是当前解决垃圾邮件问题的主流技术,主要包括基于规则的内容分析方法和基于概率统计的内容分析方法两个研究方向。由于Rough集理论具备不需要任何先验信息,能在保持分类能力不变的前提下,通过属性约简,导出问题的决策规则的特点,因此在基于内容的垃圾邮件过滤技术上,引入Rough集理论。将该理论用于垃圾邮件过滤是一个新的研究方向。首先,文中重点研究分析基于Rough集的经典属性约简算法。进一步提出了一种改进的Rough集属性约简算法。实验证明该算法是可行的,高效的,尤其适用于大数据集的属性约简。然后详细介绍了基于Rough集的垃圾邮件过滤系统模型和工作流程;在垃圾邮件过滤的特征选择问题上,采用了改进的Rough集属性约简算法过滤掉冗余特征和不相关特征;将邮件正文内容特征集和邮件头的7个相关特征综合实现对邮件的识别,从而提高了系统过滤的正确率,降低垃圾邮件的错判率。最后通过三组对比实验表明:将Rough集理论应用于垃圾邮件过滤领域是可行的、高效的。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 研究背景和意义
  • 1.1.1 垃圾邮件的存在的状况
  • 1.1.2 垃圾邮件的定义
  • 1.1.3 过滤垃圾邮件的必要性和意义
  • 1.2 国内外垃圾邮件的过滤现状
  • 1.2.1 垃圾邮件过滤的法律实施现状
  • 1.2.2 垃圾邮件过滤的技术研究现状
  • 1.3 论文的主要研究内容
  • 1.4 论文的组织结构
  • 第2章 基于内容的垃圾邮件过滤技术的研究
  • 2.1 概述
  • 2.2 基于规则的内容分析方法
  • 2.2.1 Ripper方法
  • 2.2.2 决策树(Decision Tree)方法
  • 2.2.3 Boosting方法
  • 2.3 基于统计的内容分析方法
  • 2.3.1 Bayes方法
  • 2.3.2 SVM方法
  • 2.3.3 KNN方法
  • 2.4 小结
  • 第3章 Rough集理论简介
  • 3.1 Rough集的概述
  • 3.2 Rough集的基本概念
  • 3.2.1 信息表达系统和决策表
  • 3.2.2 上下近似集
  • 3.2.3 Rough度与近似精度
  • 3.2.4 相对约简的基本概念
  • 3.3 小结
  • 第4章 Rough集属性约简算法的研究
  • 4.1 经典属性约简算法的研究
  • 4.1.1 基于可辨识矩阵和逻辑运算的属性约简算法
  • 4.1.2 基于属性依赖度的属性相对约简算法
  • 4.1.3 基于属性频率的属性相对约简算法
  • 4.1.4 基于互信息的属性相对约简算法
  • 4.2 改进的Rough集属性约简算法
  • 4.2.1 启发式函数
  • 4.2.2 正区域的递增计算
  • 4.2.3 改进的Rough集属性约简算法
  • 4.2.4 实验结果及分析
  • 4.3 小结
  • 第5章 基于Rough集理论的垃圾邮件过滤系统
  • 5.1 邮件过滤系统的概述
  • 5.1.1 系统模块功能介绍
  • 5.1.2 邮件过滤系统中的Rough集模型
  • 5.1.3 Rough集模型中的条件属性和决策属性
  • 5.2 邮件训练集的预处理
  • 5.2.1 邮件内容特征提取的常用方法
  • 5.2.2 应用于邮件过滤系统中的特征提取
  • 5.3 Rough集在邮件过滤系统的应用
  • 5.3.1 数据离散化处理
  • 5.3.2 邮件过滤规则的获取
  • 5.3.3 过滤规则匹配算法
  • 5.4 实验结果分析
  • 5.4.1 评价性能指标
  • 5.4.2 实验数据选取
  • 5.4.3 实验结果分析
  • 5.5 小结
  • 第6章 结论与展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  

    基于Rough集的垃圾邮件过滤技术的研究与应用
    下载Doc文档

    猜你喜欢