基于贝叶斯的分布式反垃圾邮件系统的研究与实现

基于贝叶斯的分布式反垃圾邮件系统的研究与实现

论文摘要

随着Internet的普及,电子邮件成了更多人交流的手段,但是有些人出于商业目的,大量搜集网上的email地址,并向这些地址发送许多广告、色情、政治邮件,极大地伤害了普通email用户的利益,大量占用了ISP的网络资源、系统资源、存储资源。垃圾邮件的防治已成为计算机网络研究的一个重大课题。本文分析了各种反垃圾邮件技术的优缺点,对制约贝叶斯过滤效果的中文分词技术进行了深入研究,提出了适合本系统的Crossed n-gram算法,来实现中文邮件的贝叶斯过滤。研究了特征选取技术在邮件处理中的应用,找到了几种效果较好的特征选取算法,对特征数量选取进行了对比实验。在上述研究的基础上,本文提出了一种新的分布式反垃圾邮件系统架构,并对该架构进行了部署和实现。为了实现分布式存储、查询及信息的共享,在系统中加入了日志生成和反馈机制,并基于此提出了一套完整的贝叶斯智能学习及权重更新策略。对该策略进行了仿真实验,效果优于传统架构下的贝叶斯过滤。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 反垃圾邮件研究现状与发展趋势
  • 1.3 论文的主要内容与结构
  • 第二章 贝叶斯在反垃圾邮件中的应用研究
  • 2.1 垃圾邮件基本原理
  • 2.1.1 垃圾邮件的定义与组成
  • 2.1.2 邮件的传送及格式
  • 2.2 贝叶斯基本理论
  • 2.2.1 基于贝叶斯的垃圾邮件过滤原理
  • 2.2.2 评价体系
  • 2.2.3 贝叶斯分类的优势和不足
  • 2.3 中文分词技术
  • 2.3.1 中文分词概述
  • 2.3.2 互信息法
  • 2.3.3 t-score 统计法
  • 2.3.4 Dts(Difference of t-score)统计法
  • 2.3.5 隐马尔可夫模型
  • 2.4 特征选取算法
  • 2.5 小结
  • 第三章 P2P 网络协议的研究
  • 3.1 P2P 概念
  • 3.2 P2P 网络的主要分类
  • 3.2.1 按照网络结构分类
  • 3.2.2 按照内容与网络拓扑结构的关系分类
  • 3.2.3 按对等节点之间数据传送方式分类
  • 3.3 CHORD 算法简介
  • 3.3.1 DHT
  • 3.3.2 相容性哈希(Consistent Hash)
  • 3.3.3 Chord 算法
  • 3.4 小结
  • 第四章 分布式垃圾邮件过滤系统的设计与实现
  • 4.1 分布式邮件过滤系统的设计思想
  • 4.2 分布式邮件过滤系统的体系结构
  • 4.3 邮件预处理的研究与实现
  • 4.3.1 邮件解析
  • 4.3.2 HTML 格式的垃圾邮件处理
  • 4.3.3 中文分词研究与实现
  • 4.3.4 贝叶斯训练
  • 4.4 客户端的研究与实现
  • 4.4.1 邮件客户端过滤
  • 4.4.2 垃圾邮件日志生成
  • 4.4.3 客户端消息通信
  • 4.4.4 客户端的实现
  • 4.5 服务器端的研究与实现
  • 4.5.1 邮件指纹生成
  • 4.5.2 服务器端过滤模块
  • 4.5.3 分布式网络中相似邮件的判定
  • 4.5.5 贝叶斯智能学习模块
  • 4.5.6 服务器模块的实现
  • 4.6 小结
  • 第五章 实验研究与分析
  • 5.1 算法分析实验
  • 5.1.1 中文分词算法比较
  • 5.1.2 特征提取算法实验比较
  • 5.1.3 朴素贝叶斯分类效果及特征个数选取
  • 5.2 智能学习仿真实验
  • 5.2.1 测试数据准备
  • 5.2.2 贝叶斯智能学习效果测试
  • 5.2.3 综合评测
  • 5.3 小结
  • 第六章 结论
  • 6.1 本文完成的工作
  • 6.2 需进一步研究的内容
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  

    基于贝叶斯的分布式反垃圾邮件系统的研究与实现
    下载Doc文档

    猜你喜欢