基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究

基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究

论文摘要

电子邮件已成为人们日常通信交流的重要手段,然而垃圾邮件却成了当前的一个严重社会问题,因此,研究一种有效的邮件过滤系统具有十分重要的意义。当前基于内容分析的文本分类技术正逐步应用到邮件过滤技术当中,并成为当前研究的热点。其中朴素贝叶斯技术是基于内容分析的邮件过滤方法中的重要方法。本文利用遗传算法和朴素贝叶斯分类技术实现了一个中文邮件过滤模型,主要工作如下:(1)根据N-最短路径方法对中文邮件进行分词处理,利用空间向量模型在计算机中表示文本,然后进行特征提取。(2)基于朴素贝叶斯分类器原理,设计和实现了一个基于遗传算法和朴素贝叶斯分类器的中文邮件过滤模型,利用遗传算法对传统的朴素贝叶斯模型进行优化。在此基础上,提出一个计算邮件的发件人地址、主题和正文这三个重要组成部分在邮件过滤时所占权重的算法GBFT,以获得较高的邮件过滤准确率和查全率。实验结果表明该算法具有较好的性能。(3)利用贝叶斯分类器对邮件进行分类的一般过程是计算概率,通过将概率与阂值比较判断待检测邮件是垃圾邮件还是有用邮件。本文提出了一个通过利用阈值对检测结果的影响来确定阈值的方法,并通过实验得出了一个比较合理的阈值,提高了结果的准确度。

论文目录

  • 摘要
  • ABSTRACT
  • 致谢
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 目前主要的反垃圾邮件技术
  • 1.3 本文的研究内容
  • 1.4 本文的组织结构
  • 第二章 数据挖掘技术
  • 2.1 数据挖掘技术产生的背景
  • 2.2 数据挖掘技术的发展历程
  • 2.3 数据挖掘技术的定义和数据挖掘过程
  • 2.4 数据挖掘功能
  • 2.5 数据挖掘方法和技术
  • 2.6 数据挖掘中的分类
  • 2.6.1 分类的过程
  • 2.6.2 分类的基本技术
  • 2.6.3 贝叶斯分类器
  • 2.7 本章小结
  • 第三章 中文垃圾邮件过滤系统中的关键技术
  • 3.1 中文词法分析
  • 3.2 中文分词方法
  • 3.2.1 基于字符串匹配的分词方法
  • 3.2.2 基于理解的分词方法
  • 3.2.3 基于统计的分词方法
  • 3.2.4 基本算法举例
  • 3.2.5 常见分词算法比较
  • 3.2.6 N-最短路径方法
  • 3.3 特征项表示与提取
  • 3.3.1 特征表示的向量空间模型(VSM)
  • 3.3.2 预处理
  • 3.3.3 特征提取
  • 3.4 本章小结
  • 第四章 基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究
  • 4.1 基于NBC的反垃圾邮件模型的设计
  • 4.2 基于NBC的反垃圾邮件模型的实现
  • 4.2.1 对邮件进行训练
  • 4.2.2 对邮件进行检测
  • 4.2.3 NBC实验结果及评估
  • 4.3 利用遗传算法优化基于NBC的反垃圾邮件模型
  • 4.3.1 遗传算法(Genetic Algorithm,GA)基本原理
  • 4.3.2 遗传算法的特点
  • 4.3.3 基本遗传算法的构成要素
  • 4.3.4 基本遗传算法步骤
  • 4.3.5 GBFT算法设计与实现
  • 4.4 阈值问题的研究
  • 4.4.1 问题的提出
  • 4.4.2 算法设计
  • 4.4.3 实验结果与分析
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 有待改进的问题
  • 5.3 展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].基于客户端的个性化邮件再过滤系统[J]. 中国科学:信息科学 2018(12)
    • [2].从科幻到现实:人工智能的进化[J]. 译林 2017(02)
    • [3].一种新的邮件过滤技术研究[J]. 计算技术与自动化 2016(04)
    • [4].基于双隶属度模糊支持向量机的邮件过滤[J]. 计算机工程与应用 2010(02)
    • [5].基于负载均衡的邮件过滤网关的研究[J]. 电脑知识与技术 2008(36)
    • [6].基于贝叶斯网络的邮件过滤系统的设计[J]. 科学技术与工程 2008(13)
    • [7].基于聚类的类别模糊邮件过滤方法[J]. 计算机系统应用 2010(09)
    • [8].基于贝叶斯增量分类的邮件过滤研究[J]. 科学技术与工程 2009(09)
    • [9].一种改进自动更新的中文邮件过滤模型的设计[J]. 电脑知识与技术 2013(20)
    • [10].一种基于相关系数的多层邮件过滤系统[J]. 计算机应用研究 2010(12)
    • [11].应用精确代价因子的两层邮件过滤模型[J]. 计算机工程与应用 2010(34)
    • [12].Marshal8e6发布电子邮件过滤解决方案[J]. 计算机安全 2009(01)
    • [13].基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 南京工程学院学报(自然科学版) 2018(03)
    • [14].基于深度包检测技术的邮件过滤研究[J]. 电子测量技术 2014(04)
    • [15].基于自然语言处理技术的邮件检测系统[J]. 数字技术与应用 2019(06)
    • [16].基于贝叶斯分类的邮件过滤系统研究与实现[J]. 陕西理工学院学报(自然科学版) 2012(04)
    • [17].基于综合过滤技术的邮件过滤终端研究[J]. 计算机应用与软件 2011(06)
    • [18].基于粗糙集的两阶段邮件过滤方法[J]. 计算机应用 2010(08)
    • [19].基于WEB的企业邮件过滤策略及实现[J]. 信息技术 2008(05)
    • [20].新的基于最小风险的贝叶斯邮件过滤模型[J]. 计算机应用研究 2008(04)
    • [21].三支决策基于粒度的邮件过滤[J]. 电脑知识与技术 2016(17)
    • [22].基于P2P网络的个性化协同邮件过滤模型[J]. 计算机技术与发展 2011(06)
    • [23].基于多规则的客户端邮件过滤系统[J]. 铜陵学院学报 2008(02)
    • [24].基于过滤器的ILS邮件微信集成服务实践[J]. 新世纪图书馆 2019(06)
    • [25].基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现[J]. 电子设计工程 2018(17)
    • [26].基于粗糙集的加权朴素贝叶斯邮件过滤方法[J]. 计算机科学 2011(02)
    • [27].电子邮件过滤网关体系结构的探讨[J]. 科教文汇(中旬刊) 2008(08)
    • [28].基于Agent的邮件过滤与个性化分类系统设计[J]. 计算机技术与发展 2009(02)
    • [29].邮件过滤中特征选择算法的研究及改进[J]. 计算机应用 2009(10)
    • [30].基于机群技术的邮件过滤系统设计[J]. 微计算机信息 2008(09)

    标签:;  ;  ;  ;  ;  ;  

    基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究
    下载Doc文档

    猜你喜欢