基于改进Winnow算法的中文反垃圾邮件系统的研究与实现

基于改进Winnow算法的中文反垃圾邮件系统的研究与实现

论文摘要

随着Internet的广泛应用,电子邮件已经是人们日常生活网络交流的重要途径。然而垃圾邮件作为商业广告、病毒程序或敏感内容的载体,已经对系统安全形成威胁,并且给人们的生活带来不便。反垃圾邮件问题已成为全球性的具有重大现实意义的课题。本文深入研究了垃圾邮件内容过滤技术,结合中文垃圾邮件的特点,设计并实现了一种基于自动分类技术的中文反垃圾邮件过滤引擎。该引擎分成预处理、训练、分类和反馈四个部分。在预处理方面,本文分别研究了邮件解码、中文分词、特征提取以及邮件的向量表示等子模块。对于中文分词,本引擎采用了中科院的汉语词法分析系统ICTCLAS;对于特征提取,采用了互信息值的方法。训练及分类是本文研究的重点。首先,对基本Winnow算法的指数形式和因子形式进行了统一,并由此推导出了Balanced Winnow算法的指数形式;其次,鉴于基本Winnow算法的抖动现象,提出了一种改进Winnow的反垃圾邮件过滤算法——Review Winnow,该算法不仅有效地缓减了抖动现象,而且所选用的损失函数能更真实地描述分类错误邮件的内在损失;再次,通过去除邮件样本集中存在的野点和利用改良的Boosting算法,提升了Winnow分类器的性能,并由此构建了ADOR-Winnow邮件分类器;最后实验证明,Balanced R-Winnow算法有效地缓减了抖动现象,ADOR-Winnow邮件分类器极大地提高了分类器性能。在反馈方面,本文提出了一种基于网格的反馈学习模型。该模型通过用户分类,将反馈级别从一般的两级延伸到系统级、域级、用户级三级。这种改进不仅有利于组间的协同过滤及集中式的反馈学习,而且有利于提高邮件分类器的过滤性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外反垃圾邮件现状
  • 1.3 论文研究内容
  • 1.4 论文结构
  • 第二章 垃圾邮件内容过滤技术
  • 2.1 反垃圾邮件方法简介
  • 2.2 基于规则的垃圾邮件过滤技术
  • 2.2.1 Ripper
  • 2.2.2 Decision Tree
  • 2.2.3 Boosting
  • 2.3 基于统计的垃圾邮件过滤技术
  • 2.3.1 Bayes
  • 2.3.2 kNN
  • 2.3.3 SVM
  • 2.3.4 Winnow
  • 2.4 中文分词技术
  • 2.4.1 基于字典、词库匹配的分词方法(机械分词法)
  • 2.4.2 基于词的频度统计的分词方法(全切分)
  • 2.4.3 基于知识理解的分词方法
  • 2.5 小结
  • 第三章 中文反垃圾邮件过滤引擎的总体架构
  • 3.1 中文反垃圾邮件过滤引擎的总体结构
  • 3.2 邮件预处理模块
  • 3.2.1 邮件解码器
  • 3.2.2 中文分词
  • 3.2.3 特征提取
  • 3.2.4 邮件的向量表示
  • 3.2.5 预处理运行界面
  • 3.3 训练及分类模块
  • 3.4 反馈学习模块
  • 3.4.1 反馈学习的分类
  • 3.4.2 基于网格的反馈学习
  • 3.5 小结
  • 第四章 基于WINNOW 的反垃圾邮件分类器算法的改进与实现
  • 4.1 线性分类器
  • 4.2 WINNOW 分类算法
  • 4.2.1 基本Winnow 算法两种形式的统一
  • 4.2.2 Balanced Winnow 算法指数形式的推导
  • 4.3 REVIEW WINNOW 算法的提出与分析
  • 4.3.1 Review Winnow 的提出
  • 4.3.2 损失函数的选取
  • 4.3.3 Review Winnow Balanced 形式的推导
  • 4.3.4 惩罚因子的选取
  • 4.4 基于BALANCED R-WINNOW 算法的分类器性能的提升
  • 4.4.1 通过去除野点提升分类器性能
  • 4.4.2 通过AdaBoost 算法提升分类器性能
  • 4.4.3 ADOR-Winnow 邮件分类器的构建
  • 4.5 实验数据及分析
  • 4.5.1 实验样本集
  • 4.5.2 评价标准
  • 4.5.3 实验步骤
  • 4.5.4 实验结果及分析
  • 4.6 小结
  • 第五章 基于网格的反馈学习模型
  • 5.1 反垃圾邮件网格
  • 5.1.1 反垃圾邮件网格的角色
  • 5.1.2 反垃圾邮件网格的过滤流程
  • 5.2 基于用户分类的反垃圾邮件网格体系结构
  • 5.2.1 用户信息的获取
  • 5.2.2 用户信息的表示
  • 5.2.3 基于用户分类的反垃圾邮件网格体系结构
  • 5.2.4 服务器端的数据结构
  • 5.3 基于网格的反馈学习的处理流程
  • 5.3.1 反馈邮件的上传与处理
  • 5.3.2 GRIS 间的信息共享
  • 5.3.3 训练结果的分发
  • 5.4 小结
  • 第六章 总结与展望
  • 6.1 论文的主要工作及贡献
  • 6.2 下一步的工作
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的学术论文
  • 相关论文文献

    • [1].基于Winnow算法的垃圾邮件过滤器研究[J]. 计算机应用 2009(S2)
    • [2].基于改进平衡Winnow算法的短信过滤系统[J]. 微型机与应用 2010(19)
    • [3].基于CAPTCHA和Winnow算法的垃圾短信过滤研究[J]. 计算机工程与设计 2011(01)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于改进Winnow算法的中文反垃圾邮件系统的研究与实现
    下载Doc文档

    猜你喜欢