基于统计模型的垃圾邮件过滤技术研究

基于统计模型的垃圾邮件过滤技术研究

论文摘要

电子邮件己经成为人们日常生活中通信、交流的重要手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet,给用户和ISP造成了巨大的损失。因此,反垃圾邮件成为Internt目前亟待解决的问题。目前常用的反垃圾邮件技术主要有:基于信件源的技术和基于内容的技术两类。其中基于内容的技术主要是将数据挖掘和机器学习的理论引入到垃圾邮件内容过滤中来,又可分为基于规则和基于统计两类。在众多基于统计的方法中,朴素贝叶斯(Na(?)ve Bayes,NB)是一种简单的机器学习方法,它通过区分垃圾邮件(Spam)和正常邮件(Ham)的特征构建统计模型进行自学习。在新邮件到来时,由分类器根据训练学习的统计规律预测新邮件为垃圾邮件或正常邮件的可能性,将邮件归入可能性最大的那一类。NB以其运算速度快、易于实现等特点在垃圾邮件过滤中得到了广泛的应用。NB垃圾邮件过滤模型(NBF)中的关键问题有:邮件文本的形式化描述,特征词选取方法,概率计算模型等。本文针对这些问题进行了深入的研究,在分析传统方法的基础上,对其进行了有效的改进,并做出了一些大胆的尝试。本文主要研究了以下内容:1)概述了垃圾邮件过滤问题的研究现状,包括垃圾邮件的定义、危害、特征分析以及常用的过滤技术;2)介绍并详细分析了通用的邮件语料库以及评价体系;3)详细分析了传统的NBF模型的实现方法及关键问题;4)将文本分类中常用的特征词方法引入NBF模型中,综合分析各种方法的特点,通过实验发现在Ling-Spam语料上采用CHI方法能使NBF过滤效果最优;5)针对期望交叉熵(ECE)特征词选取方法的不足,提出了改进的期望交叉熵(AECE)选取方法;6)综合分析了NBF中现有的概率计算模型,通过实验比较,选出了最优计算模型,在计算模型的最优选择和特征词选取方法优化的基础上,提出了在分类时通过特征词加权的方法,提高过滤精度,从而实现了改进Na(?)ve Bayes的垃圾邮件过滤模型(A-NBF);7)综合分析了传统的基于最小风险的Na(?)ve Bayes过滤模型的特点,提出一种新的过滤模型—基于直线几何分割的贝叶斯邮件过滤模型(LGDNBF),定义了新的风险因子,以更加准确地描述风险,从而提高了过滤精度。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.2.1 垃圾邮件的定义
  • 1.2.2 垃圾邮件的危害
  • 1.3 本文研究的内容
  • 第二章 垃圾邮件过滤研究
  • 2.1 电子邮件的报文格式
  • 2.1.1 文本式邮件报文
  • 2.1.2 MIME格式的邮件报文
  • 2.2 垃圾邮件的特点以及类型分析
  • 2.3 垃圾邮件泛滥的原因
  • 2.3.1 技术因素
  • 2.3.2 非技术因素
  • 2.4 基于信件源的垃圾邮件阻断及过滤技术
  • 2.4.1 实时黑名单技术(Real-time Black List,RBL)
  • 2.4.2 SPF (Sender Policy Framework)
  • 2.4.3 Domain Keys
  • 2.4.4 Challenge-Response
  • 2.4.5 SMTP交互行为的检测
  • 2.4.6 DNS反向验证技术
  • 2.5 基于内容的垃圾邮件过滤技术
  • 2.5.1 基于规则的方法
  • 2.5.2 基于统计的方法
  • 2.6 其它方法
  • 第三章 公用垃圾邮件语料及评价体系
  • 3.1 Ling-Spam系列语料
  • 3.2 PU系列语料
  • 3.3 SpamAssassin语料
  • 3.4 2005 TREC公共语料集
  • 3.5 评价体系
  • 第四章 贝叶斯垃圾邮件过滤模型
  • 4.1 Na(?)ve Bayes过滤模型(NBF)概述
  • 4.2 Na(?)ve Bayes过滤模型中的关键问题
  • 4.2.1 邮件特征词的选取
  • 4.2.2 Pr[(?)|c]的估计模型
  • 第五章 邮件特征词选取
  • 5.1 文档频度DF(Document Frequency)
  • 5.2 信息增益lG(Information Gain)
  • 5.3 期望交叉熵ECE(Expected Cross Entropy)
  • 5.4 互信息MI(Mutual Information)
  • 5.5 文本证据权WET(Weight of Evidence for Text)
  • 5.6 几率比OR(Odds Ratio)
  • 2统计量CHI(x2 Statistic)'>5.7 x2统计量CHI(x2Statistic)
  • 第六章 改进的贝叶斯邮件过滤模型
  • 6.1 特征选取优化
  • 6.2 特征词加权
  • 第七章 基于直线几何分割的贝叶斯邮件过滤模型
  • 7.1 基于最小风险的NBF模型
  • 7.2 基于直线几何分割的NBF模型(Na(?)ve Bayes Filtering Model based on Line Geometry Division,LGDNBF)
  • 第八章 实验及分析
  • 8.1 实验方法
  • 8.2 实验内容及分析
  • 第九章 结束语
  • 参考文献
  • 致谢
  • 在校期间的研究成果及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于统计模型的垃圾邮件过滤技术研究
    下载Doc文档

    猜你喜欢