论文摘要
随着互联网的普及,电子邮件以其快捷、方便的特点已成为互联网上最重要的应用之一。但垃圾邮件也越来越泛滥,占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作。如何有效地防范垃圾邮件问题袭扰已成为人们亟待解决的问题。本文主要研究了邮件过滤算法和实现方法,主要工作包括如下几个方面:首先详细介绍了电子邮件系统的工作原理、电子邮件的体系结构、电子邮件所使用的协议以及电子邮件格式。为邮件过滤中的邮件格式的分析以及系统实现提供了前期的准备工作。然后对邮件过滤中常用文本分类算法进行了分析,并给出了常用的文本分类算法的性能评价指标,以召回率与精确度作为本文邮件过滤算法性能评价的指标。然后从贝叶斯算法的原理出发,分析了贝叶斯算法的主要思想和常用的基于贝叶斯算法的分类模型,总结其优劣,并结合神经网络技术,采用朴素贝叶斯算法和PG贝叶斯算法I、PG贝叶斯算法II三种贝叶斯算法的并行融合的策略,提出了一种基于多贝叶斯并行融合的邮件过滤算法,在垃圾邮件语料库上的实验数据表明,通过这三种贝叶斯算法融合的方法能有效的提高了过滤精确率和召回率,但会导致邮件系统效率降低。最后,在上述的基于多贝叶斯并行融合模型的邮件过滤算法的基础上,引入了一种特征项权重值的调整策略,采用文本证据权函数对文本特征的权值进行调整。在此基础上,设计了一个邮件过滤原型系统,对系统中的邮件预处理、文本分词、特征提取等主要功能模块进行了详细说明。对原型系统的测试结果表明,所提出的邮件过滤算法能有效地识别垃圾邮件,具有较高的过滤精度。
论文目录
摘要Abstract第1章 绪论1.1 研究背景1.2 国内外研究现状1.2.1 垃圾邮件概况1.2.2 垃圾邮件的种类及特点1.2.3 国内外垃圾邮件过滤技术研究现状1.3 研究内容和论文结构第2章 电子邮件系统及邮件过滤方法2.1 电子邮件系统简介2.1.1 电子邮件工作原理2.1.2 电子邮件体系结构2.2 邮件过滤概述2.3 常用的邮件过滤方法2.3.1 决策树2.3.2 Boosting 方法2.3.3 K 最近邻方法2.3.4 支持向量机2.3.5 空间向量法2.4 邮件过滤的评价指标2.5 本章小结第3章 基于多贝叶斯过滤器并行融合的邮件过滤算法3.1 贝叶斯定理3.1.1 相关知识3.1.2 基于贝叶斯的邮件过滤算法主要思想3.2 贝叶斯算法常用分类模型3.2.1 朴素贝叶斯分类模型3.2.2 半朴素贝叶斯分类模型3.2.3 增量贝叶斯分类模型3.3 基于多贝叶斯过滤器并行融合的邮件过滤算法3.3.1 PG 贝叶斯算法I3.3.2 PG 贝叶斯算法II3.3.3 多贝叶斯过滤器并行融合模型3.3.4 基于多贝叶斯并行融合模型的邮件过滤算法设计3.4 实验结果3.5 本章小结第4章 新邮件过滤算法的实现4.1 相关知识4.1.1 邮件编码4.1.2 邮件解码4.1.3 评价指标4.2 新的邮件过滤系统模块化设计4.2.1 邮件预处理4.2.2 特征提取4.2.3 权重值调整4.2.4 邮件过滤方法4.3 算法实现及实验结果4.4 本章小结结论参考文献附录A 攻读学位期间发表的论文致谢
相关论文文献
标签:邮件过滤论文; 文本分类论文; 贝叶斯算法论文;