论文摘要
随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的大量存储空间,用户往往要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要的意义。本文首先深入研究了国内外反垃圾邮件相关文献和数据,对已有的垃圾邮件过滤技术进行了分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容挖掘的中文垃圾邮件过滤技术,其中文本挖掘、邮件预处理以及分类是邮件过滤系统的关键技术,在对其基本原理和实现机制进行深入研究的基础上,为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,本文提出了一个基于文本挖掘的垃圾邮件过滤框架,并针对该框架的各个部分进行了相应的研究和改进。在邮件过滤系统的预处理部分,本文提出了一种支持首字哈希和完全二分查找的改进正向最大匹配分词算法以提高垃圾邮件过滤系统的分词速度和系统效率;文本特征的提取则采用滑动窗口的优势率法,通过扩大词汇特征提取范围来降低分类漏判率和提高分类精度。在邮件过滤系统的分类部分,本文提出了二项式模型(BIM)和多项式模型(MM)相结合的混合模型(HM),应用到最小风险贝叶斯分类器中,以降低垃圾邮件过滤系统分类错误率,提高分类准确率。本文最后基于以上框架,设计和实现了一个基于内容挖掘的中文垃圾邮件过滤原型系统,给出了相关设计思想和实现细节,并构建了一个实际的实验和测试环境。测试结果表明:跟传统朴素贝叶斯分类系统比较,改进后的反垃圾邮件系统不仅能够较好的实现垃圾邮件的过滤功能,而且具有较高的查全率和查准率。
论文目录
摘要Abstract第1章 绪论1.1 研究背景及选题意义1.2 垃圾邮件概述1.2.1 垃圾邮件的定义1.2.2 垃圾邮件的特征1.2.3 垃圾邮件的类型1.2.4 国内垃圾邮件的现状1.3 垃圾邮件的解决方案述评1.3.1 反垃圾邮件的基本措施1.3.2 反垃圾邮件技术1.3.3 存在的主要问题1.4 本文的主要工作第2章 基于文本挖掘技术的邮件过滤系统框架研究2.1 文本挖掘技术分析2.1.1 文本挖掘的定义2.1.2 文本挖掘的过程2.1.3 文本挖掘的关键技术2.2 基于文本挖掘的垃圾邮件过滤系统框架2.2.1 电子邮件的格式分析2.2.2 基于文本挖掘的垃圾邮件过滤系统框架2.3 本章小结第3章 邮件预处理技术研究3.1 邮件正文提取3.2 文本分词处理3.2.1 英文分词3.2.2 中文分词3.2.3 词典的组织加工3.2.4 去除停用词3.3 文本特征提取3.4 基于文本挖掘的垃圾邮件过滤系统预处理机制设计3.4.1 改进的正向最大匹配分词法3.4.2 基于滑动窗口的优势率特征提取3.5 本章小结第4章 邮件分类技术4.1 文本挖掘中的分类4.1.1 分类的过程4.1.2 文本分类方法综述4.2 基于贝叶斯技术邮件分类器基本原理4.2.1 Bayes 过滤在反垃圾邮件系统中的应用4.2.2 贝叶斯反垃圾邮件分类算法4.3 朴素贝叶斯分类4.3.1 朴素贝叶斯分类原理4.3.2 朴素贝叶斯分类算法的优缺点4.3.3 改进的朴素贝叶斯分类算法4.4 贝叶斯邮件分类模型分析及其改进4.4.1 贝叶斯邮件分类模型分析4.4.2 基于混合模型(HM)的贝叶斯邮件分类器4.5 本章小结第5章 邮件过滤系统的设计与实现5.1 系统设计5.1.1 系统总框架5.1.2 模块设计5.2 主要模块的实现5.2.1 预处理模块实现5.2.2 过滤模块实现5.3 本章小结第6章 系统测试6.1 测试环境6.2 垃圾邮件过滤系统的评价指标6.3 实验结果及性能分析6.3.1 单元测试6.3.2 集成测试6.3.3 时间效率测试6.4 本章小结结束语一、本文小结二、主要成果三、后续工作展望参考文献致谢附录 攻读学位期间的主要研究成果
相关论文文献
标签:垃圾邮件论文; 文本挖掘论文; 中文分词论文; 特征提取论文; 贝叶斯算法论文; 邮件过滤论文;