论文摘要
随着Internet的普及,电子邮件成了更多人交流的手段,但是有些人出于商业目的,大量搜集网上的email地址,并向这些地址发送许多广告、色情、政治邮件,极大地伤害了普通email用户的利益,大量占用了ISP的网络资源、系统资源、存储资源。垃圾邮件的防治已成为计算机网络研究的一个重大课题。本文分析了各种反垃圾邮件技术的优缺点,对制约贝叶斯过滤效果的中文分词技术进行了深入研究,提出了适合本系统的Crossed n-gram算法,来实现中文邮件的贝叶斯过滤。研究了特征选取技术在邮件处理中的应用,找到了几种效果较好的特征选取算法,对特征数量选取进行了对比实验。在上述研究的基础上,本文提出了一种新的分布式反垃圾邮件系统架构,并对该架构进行了部署和实现。为了实现分布式存储、查询及信息的共享,在系统中加入了日志生成和反馈机制,并基于此提出了一套完整的贝叶斯智能学习及权重更新策略。对该策略进行了仿真实验,效果优于传统架构下的贝叶斯过滤。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景及意义1.2 反垃圾邮件研究现状与发展趋势1.3 论文的主要内容与结构第二章 贝叶斯在反垃圾邮件中的应用研究2.1 垃圾邮件基本原理2.1.1 垃圾邮件的定义与组成2.1.2 邮件的传送及格式2.2 贝叶斯基本理论2.2.1 基于贝叶斯的垃圾邮件过滤原理2.2.2 评价体系2.2.3 贝叶斯分类的优势和不足2.3 中文分词技术2.3.1 中文分词概述2.3.2 互信息法2.3.3 t-score 统计法2.3.4 Dts(Difference of t-score)统计法2.3.5 隐马尔可夫模型2.4 特征选取算法2.5 小结第三章 P2P 网络协议的研究3.1 P2P 概念3.2 P2P 网络的主要分类3.2.1 按照网络结构分类3.2.2 按照内容与网络拓扑结构的关系分类3.2.3 按对等节点之间数据传送方式分类3.3 CHORD 算法简介3.3.1 DHT3.3.2 相容性哈希(Consistent Hash)3.3.3 Chord 算法3.4 小结第四章 分布式垃圾邮件过滤系统的设计与实现4.1 分布式邮件过滤系统的设计思想4.2 分布式邮件过滤系统的体系结构4.3 邮件预处理的研究与实现4.3.1 邮件解析4.3.2 HTML 格式的垃圾邮件处理4.3.3 中文分词研究与实现4.3.4 贝叶斯训练4.4 客户端的研究与实现4.4.1 邮件客户端过滤4.4.2 垃圾邮件日志生成4.4.3 客户端消息通信4.4.4 客户端的实现4.5 服务器端的研究与实现4.5.1 邮件指纹生成4.5.2 服务器端过滤模块4.5.3 分布式网络中相似邮件的判定4.5.5 贝叶斯智能学习模块4.5.6 服务器模块的实现4.6 小结第五章 实验研究与分析5.1 算法分析实验5.1.1 中文分词算法比较5.1.2 特征提取算法实验比较5.1.3 朴素贝叶斯分类效果及特征个数选取5.2 智能学习仿真实验5.2.1 测试数据准备5.2.2 贝叶斯智能学习效果测试5.2.3 综合评测5.3 小结第六章 结论6.1 本文完成的工作6.2 需进一步研究的内容致谢参考文献附录
相关论文文献
标签:反垃圾邮件论文; 贝叶斯智能学习论文; 分布式过滤论文;