基于支持向量机的垃圾邮件过滤模型研究

基于支持向量机的垃圾邮件过滤模型研究

论文摘要

随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同时,许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此如何能够有效地防治垃圾邮件是一个有重要意义的现实问题。本文研究了大量国内外最新反垃圾邮件文献和数据,对己有的垃圾邮件过滤技术做出分析、总结和展望。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术是通过分析电子邮件的内容,来过滤垃圾邮件的一种技术。基于内容的垃圾邮件过滤本质上是文本分类问题,就是要将电子邮件经过预处理提取出邮件正文的文本内容,利用文本分类方法识别垃圾邮件的过程。本文对各种文本分类技术进行了深入调查研究,重点研究了当前流行的支持向量机理论、在文本分类中的重要应用以及当今利用支持向量机进行垃圾邮件处理的最新进展和技术实践。本文利用文本分类的方法处理当前流行的HTML类垃圾邮件。本文对HTML类电子邮件的预处理方法进行了深入的研究。对邮件的预处理,本文研究了文本解析和噪声去除技术,以及实用的中文分词技术、Lucene和GATE工具。提出了基于相似度曲线的特征提取策略。本文设计并实现了基于支持向量机的垃圾邮件过滤系统。采用正向最大匹配方法实现了中文分词,采用基于相似度曲线的特征提取策略和考虑位置因素的权重计算公式,采用支持向量机模型和LIBSVM工具包实现了对电子邮件的分类。通过对系统测试,实验表明采用支持向量机用于垃圾邮件过滤是实现垃圾邮件过滤的有效方法之一。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题来源
  • 1.2 课题背景及研究意义
  • 1.3 垃圾邮件过滤技术研究现状
  • 1.4 本文主要内容及章节安排
  • 第2章 电子邮件原理及文本分类技术
  • 2.1 邮件的传输过程
  • 2.2 常见的电子邮件协议
  • 2.3 电子邮件的报文格式
  • 2.4 电子邮件的解析过程
  • 2.5 文本分类
  • 2.5.1 文本表示
  • 2.5.2 中文分词
  • 2.5.3 文本特征项提取
  • 2.6 本章小结
  • 第3章 基于支持向量机的垃圾邮件过滤技术
  • 3.1 支持向量机理论
  • 3.1.1 理论背景
  • 3.1.2 支持向量机的思想和原理
  • 3.1.3 常见的核函数
  • 3.1.4 核函数作用及核参数的影响
  • 3.1.5 支持向量机方法的优点
  • 3.2 改进的SVM 算法
  • 3.2.1 基于SVM 算法的常见实现
  • 3.2.2 LIBSVM
  • 3.3 将SVM 理论用于垃圾邮件处理
  • 3.4 SVM 模型建立
  • 3.5 本章小结
  • 第4章 垃圾邮件过滤系统的预处理
  • 4.1 垃圾邮件的新形式
  • 4.2 针对HTML 格式垃圾邮件的处理
  • 4.2.1 基于HTML 结构特征的正文信息提取
  • 4.2.2 基于URL 黑名单的链接类垃圾邮件过滤
  • 4.3 中文分词
  • 4.3.1 建立停用词表
  • 4.3.2 建立基于词性和专业性的中英文分词词典
  • 4.3.3 运用开源软件包Lucene 和GATE 进行分词
  • 4.3.4 分词实现过程
  • 4.4 基于相似度曲线的特征提取
  • 4.5 本章小结
  • 第5章 基于SVM 的垃圾邮件过滤模型实现
  • 5.1 SVM 训练
  • 5.1.1 邮件样本集的选取
  • 5.1.2 训练调参
  • 5.1.3 训练步骤
  • 5.2 分类过程的设计与实现
  • 5.3 仿真实验
  • 5.3.1 软硬件环境
  • 5.3.2 垃圾邮件过滤系统的评价体系
  • 5.3.3 实验结果及分析
  • 5.4 本章小结
  • 结论
  • 附录
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于支持向量机的垃圾邮件过滤模型研究
    下载Doc文档

    猜你喜欢