基于数据挖掘的垃圾邮件过滤技术研究

基于数据挖掘的垃圾邮件过滤技术研究

论文摘要

随着Internet的迅速普及,电子邮件已经成为现代通信主要手段之一。然而,垃圾邮件的存在却时刻威胁着电子邮件的使用安全。垃圾邮件作为商业广告、恶意程序和不健康内容的携带者,不仅占用网络带宽,同时造成用户时间、金钱上的浪费和情绪上的不良影响,严重侵扰着人们的正常生活。因此,反垃圾邮件行动刻不容缓,其技术也在不断地更新换代。目前,主要有基于IP层的反垃圾邮件技术、基于SMTP层的反垃圾邮件技术和基于邮件内容的过滤等技术的研发。在数据挖掘的文本挖掘启发下,本文致力于研究基于邮件文本内容上的垃圾邮件过滤技术。本文首先使用正向最大匹配法对邮件样本正文文本作分词处理,得到邮件的特征项。接着,利用互信息减少向量维数,构建邮件样本库。介绍目前比较流行的贝叶斯、KNN、向量空间、朴素贝叶斯等分类方法的原理,对这些算法进行比较分析。针对传统的KNN算法存在搜索速度慢、样本库容量依赖性强的缺陷,提出了一种基于KNN算法的混合分类器模型及实现。该算法首先利用各分类器对邮件进行处理得到分类结果,根据分类结果相同和不同决定是否再次进行KNN计算,这样避免有单一分类器的局限性,能够发挥每个分类器的优势。通过实验证明,该方法对于中文邮件过滤系统切实可行,效果良好,是一种对邮件进行过滤的新的有价值的尝试。最后,本文提出对多媒体的垃圾邮件过滤、手机中的垃圾短信过滤等科研方向有待进一步地开拓。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景及研究意义
  • 1.2 目前国内外研究现状
  • 1.2.1 存在的问题
  • 1.2.2 主要技术
  • 1.3 本文研究的主要内容及章节安排
  • 第二章 数据挖掘技术
  • 2.1 数据挖掘概念和任务
  • 2.1.1 数据挖掘的概念
  • 2.1.2 数据挖掘的任务
  • 2.2 数据挖掘的过程、模式和方法
  • 2.2.1 数据挖掘的过程
  • 2.2.2 数据挖掘的模式和方法
  • 2.3 文本数据挖掘
  • 第三章 基于内容的反垃圾邮件技术应用研究
  • 3.1 概述
  • 3.2 KNN(K-Nearest Neighbor)算法及其模型
  • 3.3 基于汉明距离的K-最近邻算法
  • 3.4 贝叶斯算法及其模型
  • 3.5 向量空间(VSM)算法及其模型
  • 3.6 朴素贝叶斯算法及模型
  • 3.7 小结
  • 第四章 邮件过滤系统的预处理
  • 4.1 邮件过滤系统的总体设计
  • 4.2 文本的表示
  • 4.3 中文分词技术
  • 4.3.1 基于词典的字符串匹配分词方法
  • 4.3.2 基于理解的分词方法
  • 4.3.3 基于统计的分词方法
  • 4.3.4 本文中分词采用的方法
  • 4.4 特征值提取
  • 4.4.1 文档频率
  • 4.4.2 互信息量
  • 4.4.3 信息增益
  • 4.4.4 相对熵法
  • 4.4.5 本文提出的特征选取算法
  • 4.5 小结
  • 第五章 基于多分类器组合的垃圾邮件过滤系统的设计
  • 5.1 概述
  • 5.2 分类器组合的方法
  • 5.2.1 投票表决法和加权投票法
  • 5.2.2 Bagging与Boosting
  • 5.3 垃圾邮件过滤系统设计与实现
  • 5.3.1 垃圾邮件过滤系统设计
  • 5.3.2 垃圾邮件算法步骤
  • 5.4 单一过滤器的实现
  • 5.4.1 KNN算法
  • 5.4.2 贝叶斯算法
  • 5.4.3 基于汉明距离的KNN算法
  • 5.4.4 朴素贝叶斯算法
  • 5.5 组合过滤器的实现
  • 5.6 组合分类器的模型算法
  • 5.7 本章小结
  • 第六章 实验测试
  • 6.1 系统性能测试
  • 6.1.1 测试目的
  • 6.1.2 测试评价指标
  • 6.2 实验结果及分析
  • 6.3 小结
  • 第七章 结束语
  • 7.1 总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  

    基于数据挖掘的垃圾邮件过滤技术研究
    下载Doc文档

    猜你喜欢