基于多贝叶斯并行融合模型的邮件过滤算法研究

基于多贝叶斯并行融合模型的邮件过滤算法研究

论文摘要

随着互联网的普及,电子邮件以其快捷、方便的特点已成为互联网上最重要的应用之一。但垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作。如何有效地防范垃圾邮件问题袭扰已成为人们亟待解决的问题。本文主要研究了邮件过滤算法和实现方法,主要工作包括如下几个方面:首先详细介绍了电子邮件系统的工作原理、电子邮件的体系结构、电子邮件所使用的协议以及电子邮件格式。为邮件过滤中的邮件格式的分析以及系统实现提供了前期的准备工作。然后对邮件过滤中常用文本分类算法进行了分析,并给出了常用的文本分类算法的性能评价指标,以召回率与精确度作为本文邮件过滤算法性能评价的指标。然后从贝叶斯算法的原理出发,分析了贝叶斯算法的主要思想和常用的基于贝叶斯算法的分类模型,总结其优劣,并结合神经网络技术,采用朴素贝叶斯算法和PG贝叶斯算法I、PG贝叶斯算法II三种贝叶斯算法的并行融合的策略,提出了一种基于多贝叶斯并行融合的邮件过滤算法,在垃圾邮件语料库上的实验数据表明,通过这三种贝叶斯算法融合的方法能有效的提高了过滤精确率和召回率,但会导致邮件系统效率降低。最后,在上述的基于多贝叶斯并行融合模型的邮件过滤算法的基础上,引入了一种特征项权重值的调整策略,采用文本证据权函数对文本特征的权值进行调整。在此基础上,设计了一个邮件过滤原型系统,对系统中的邮件预处理、文本分词、特征提取等主要功能模块进行了详细说明。对原型系统的测试结果表明,所提出的邮件过滤算法能有效地识别垃圾邮件,具有较高的过滤精度。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 垃圾邮件概况
  • 1.2.2 垃圾邮件的种类及特点
  • 1.2.3 国内外垃圾邮件过滤技术研究现状
  • 1.3 研究内容和论文结构
  • 第2章 电子邮件系统及邮件过滤方法
  • 2.1 电子邮件系统简介
  • 2.1.1 电子邮件工作原理
  • 2.1.2 电子邮件体系结构
  • 2.2 邮件过滤概述
  • 2.3 常用的邮件过滤方法
  • 2.3.1 决策树
  • 2.3.2 Boosting 方法
  • 2.3.3 K 最近邻方法
  • 2.3.4 支持向量机
  • 2.3.5 空间向量法
  • 2.4 邮件过滤的评价指标
  • 2.5 本章小结
  • 第3章 基于多贝叶斯过滤器并行融合的邮件过滤算法
  • 3.1 贝叶斯定理
  • 3.1.1 相关知识
  • 3.1.2 基于贝叶斯的邮件过滤算法主要思想
  • 3.2 贝叶斯算法常用分类模型
  • 3.2.1 朴素贝叶斯分类模型
  • 3.2.2 半朴素贝叶斯分类模型
  • 3.2.3 增量贝叶斯分类模型
  • 3.3 基于多贝叶斯过滤器并行融合的邮件过滤算法
  • 3.3.1 PG 贝叶斯算法I
  • 3.3.2 PG 贝叶斯算法II
  • 3.3.3 多贝叶斯过滤器并行融合模型
  • 3.3.4 基于多贝叶斯并行融合模型的邮件过滤算法设计
  • 3.4 实验结果
  • 3.5 本章小结
  • 第4章 新邮件过滤算法的实现
  • 4.1 相关知识
  • 4.1.1 邮件编码
  • 4.1.2 邮件解码
  • 4.1.3 评价指标
  • 4.2 新的邮件过滤系统模块化设计
  • 4.2.1 邮件预处理
  • 4.2.2 特征提取
  • 4.2.3 权重值调整
  • 4.2.4 邮件过滤方法
  • 4.3 算法实现及实验结果
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 附录A 攻读学位期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于多贝叶斯并行融合模型的邮件过滤算法研究
    下载Doc文档

    猜你喜欢