基于内容挖掘的中文垃圾邮件过滤技术研究与实现

基于内容挖掘的中文垃圾邮件过滤技术研究与实现

论文摘要

随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的大量存储空间,用户往往要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要的意义。本文首先深入研究了国内外反垃圾邮件相关文献和数据,对已有的垃圾邮件过滤技术进行了分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容挖掘的中文垃圾邮件过滤技术,其中文本挖掘、邮件预处理以及分类是邮件过滤系统的关键技术,在对其基本原理和实现机制进行深入研究的基础上,为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,本文提出了一个基于文本挖掘的垃圾邮件过滤框架,并针对该框架的各个部分进行了相应的研究和改进。在邮件过滤系统的预处理部分,本文提出了一种支持首字哈希和完全二分查找的改进正向最大匹配分词算法以提高垃圾邮件过滤系统的分词速度和系统效率;文本特征的提取则采用滑动窗口的优势率法,通过扩大词汇特征提取范围来降低分类漏判率和提高分类精度。在邮件过滤系统的分类部分,本文提出了二项式模型(BIM)和多项式模型(MM)相结合的混合模型(HM),应用到最小风险贝叶斯分类器中,以降低垃圾邮件过滤系统分类错误率,提高分类准确率。本文最后基于以上框架,设计和实现了一个基于内容挖掘的中文垃圾邮件过滤原型系统,给出了相关设计思想和实现细节,并构建了一个实际的实验和测试环境。测试结果表明:跟传统朴素贝叶斯分类系统比较,改进后的反垃圾邮件系统不仅能够较好的实现垃圾邮件的过滤功能,而且具有较高的查全率和查准率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及选题意义
  • 1.2 垃圾邮件概述
  • 1.2.1 垃圾邮件的定义
  • 1.2.2 垃圾邮件的特征
  • 1.2.3 垃圾邮件的类型
  • 1.2.4 国内垃圾邮件的现状
  • 1.3 垃圾邮件的解决方案述评
  • 1.3.1 反垃圾邮件的基本措施
  • 1.3.2 反垃圾邮件技术
  • 1.3.3 存在的主要问题
  • 1.4 本文的主要工作
  • 第2章 基于文本挖掘技术的邮件过滤系统框架研究
  • 2.1 文本挖掘技术分析
  • 2.1.1 文本挖掘的定义
  • 2.1.2 文本挖掘的过程
  • 2.1.3 文本挖掘的关键技术
  • 2.2 基于文本挖掘的垃圾邮件过滤系统框架
  • 2.2.1 电子邮件的格式分析
  • 2.2.2 基于文本挖掘的垃圾邮件过滤系统框架
  • 2.3 本章小结
  • 第3章 邮件预处理技术研究
  • 3.1 邮件正文提取
  • 3.2 文本分词处理
  • 3.2.1 英文分词
  • 3.2.2 中文分词
  • 3.2.3 词典的组织加工
  • 3.2.4 去除停用词
  • 3.3 文本特征提取
  • 3.4 基于文本挖掘的垃圾邮件过滤系统预处理机制设计
  • 3.4.1 改进的正向最大匹配分词法
  • 3.4.2 基于滑动窗口的优势率特征提取
  • 3.5 本章小结
  • 第4章 邮件分类技术
  • 4.1 文本挖掘中的分类
  • 4.1.1 分类的过程
  • 4.1.2 文本分类方法综述
  • 4.2 基于贝叶斯技术邮件分类器基本原理
  • 4.2.1 Bayes 过滤在反垃圾邮件系统中的应用
  • 4.2.2 贝叶斯反垃圾邮件分类算法
  • 4.3 朴素贝叶斯分类
  • 4.3.1 朴素贝叶斯分类原理
  • 4.3.2 朴素贝叶斯分类算法的优缺点
  • 4.3.3 改进的朴素贝叶斯分类算法
  • 4.4 贝叶斯邮件分类模型分析及其改进
  • 4.4.1 贝叶斯邮件分类模型分析
  • 4.4.2 基于混合模型(HM)的贝叶斯邮件分类器
  • 4.5 本章小结
  • 第5章 邮件过滤系统的设计与实现
  • 5.1 系统设计
  • 5.1.1 系统总框架
  • 5.1.2 模块设计
  • 5.2 主要模块的实现
  • 5.2.1 预处理模块实现
  • 5.2.2 过滤模块实现
  • 5.3 本章小结
  • 第6章 系统测试
  • 6.1 测试环境
  • 6.2 垃圾邮件过滤系统的评价指标
  • 6.3 实验结果及性能分析
  • 6.3.1 单元测试
  • 6.3.2 集成测试
  • 6.3.3 时间效率测试
  • 6.4 本章小结
  • 结束语
  • 一、本文小结
  • 二、主要成果
  • 三、后续工作展望
  • 参考文献
  • 致谢
  • 附录 攻读学位期间的主要研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于内容挖掘的中文垃圾邮件过滤技术研究与实现
    下载Doc文档

    猜你喜欢