一种复合的双引擎智能垃圾邮件过滤方法

一种复合的双引擎智能垃圾邮件过滤方法

论文摘要

最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问题——大量垃圾邮件的涌现,这也导致花大量的时间和精力来处理来垃圾邮件。如何更加准确地将垃圾邮件从正常邮件中区分出来并过滤掉,已经成为一个世界性的课题,即反垃圾邮件问题。为了解决这个让人棘手的问题,一定要采取一个系统化的方案,包括立法、社会组织、技术方法。从技术的角度出发,传播垃圾邮件和过滤垃圾邮件是此消彼长的长期斗争过程,就像反病毒一样。为此,本文就反垃圾邮件的应用技术,贝叶斯分类模型,中心距向量空间模型,多分类模型组合等相关理论和知识进行了研究。基于概率统计原理的贝叶斯分类算法是一种经典的文本分类方法,它本身具有理论发展成熟,分类准确度高的特点;中心距向量空间模型是一种新颖的文本分类算法,由于其很好的准确性,良好的多分类性能,目前也被广泛应用到各类文本分类应用中。在分析了这几种方法和技术在邮件过滤应用中各自的优缺点后,根据这几种算法的优缺点,对它们进行改良、相互结合、并增加了通过查看发出的邮件内容进行自动学习的机制。另外,该算法针对中英文垃圾邮件采用不同的学习算法,从而建立一个适用中英文环境的垃圾邮件过滤方法。实验表明,该方法的效率和性能达到了较好的水平。本文用VC++和MySQL数据库设计了一个基于贝叶斯算法的垃圾邮件过滤系统。具体实现是通过将基于TDI网络驱动过滤的技术和应用层的基于贝叶斯算法和中心距向量算法的文本分类技术结合起来达到的。为了提高贝叶斯算法对中文邮件的处理精度,引入了中文分词机制。中文分词采用的中国科学院计算技术研究所汉语词法分析系统ICTCLAS的开源代码。经过测试,系统的的垃圾邮件过滤功能的效果相当的好。

论文目录

  • 摘要
  • ABSTRACT
  • 1 概述
  • 1.1 垃圾邮件的文化与历史
  • 1.1.1 垃圾邮件的概念与定义
  • 1.1.2 垃圾邮件泛滥的原因
  • 1.1.3 垃圾邮件泛滥的危害
  • 1.2 国内外反垃圾邮件研究现状
  • 1.2.1 服务器端和客户端的邮件过滤
  • 1.2.2 白名单,黑名单
  • 1.2.3 安全认证方法
  • 1.2.4 规则匹配
  • 1.2.5 基于内容分类的垃圾邮件过滤技术
  • 1.3 论文的主要内容和章节安排
  • 2 反垃圾邮件中常用智能算法研究
  • 2.1 构建文本自动分类模型
  • 2.2 文本分类的研究基础
  • 2.3 特征的选择方法
  • 2.3.1 文档频次
  • 2.3.2 互信息
  • 2.3.3 信息增益
  • 2 统计量'>2.3.4 X2统计量
  • 2.3.5 相对熵
  • 2.3.6 优势率
  • 2.4 垃圾邮件内容过滤中应用的文本分类方法
  • 2.4.1 中心距向量分类法
  • 2.4.2 KNN (K 最近邻居)算法
  • 2.4.3 支持向量机
  • 2.4.4 贝叶斯过滤算法
  • 2.5 本章小结
  • 3 一种复合的双引擎智能垃圾邮件过滤方法理论研究
  • 3.1 邮件过滤的功能
  • 3.2 邮件配置功能
  • 3.3 智能学习功能
  • 3.4 词库特征项的选择
  • 3.5 分词技术
  • 3.6 复合智能算法的性能评估
  • 3.7 本章小结
  • 4 垃圾邮件过滤方法的应用技术研究及关键技术实现
  • 4.1 基于 WINDOWS平台规则过滤应用技术研究
  • 4.1.1 网络过滤应用技术的研究
  • 4.2 基于贝叶斯和中心距智能的垃圾邮件过滤应用技术研究
  • 4.2.1 特征向量的获取算法
  • 4.2.2 学习流程
  • 4.2.3 关键词的优化
  • 4.2.4 分词技术模块
  • 4.3 本章小结
  • 5 结论和建议
  • 致谢
  • 参考文献
  • 附录
  • 作者攻读硕士学位期间发表及收录的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    一种复合的双引擎智能垃圾邮件过滤方法
    下载Doc文档

    猜你喜欢