中文邮件过滤系统的研究与实现

中文邮件过滤系统的研究与实现

论文摘要

电子邮件已经成为人们日常生活中通信、交流的重要手段之一。然而,大量出现的垃圾邮件,给用户造成了时间和资源上的浪费,同时也极大地消耗了网络传输资源以及邮件服务器的存储空间,并对网络安全构成威胁。本文针对这一问题展开研究。目前,常用的包括黑名单与白名单技术、基于关键词搜索以及设定过滤规则等方法。在实际使用中已逐渐不能满足过滤需求,基于内容分析的文本分类技术正逐步进入邮件过滤技术当中,并成为当前研究热点。其中,基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯模型。本文结合文本分类技术以及贝叶斯理论,提出了基于粗集属性约简的贝叶斯中文邮件过滤技术,它通过基于粗集属性约简的特征提取,并在贝叶斯分类方法中通过计算属性间的依赖性来提高朴素贝叶斯算法的适用性。同时,本系统还结合了邮件的一些自身特性来提高过滤效果。并围绕这种针对中文邮件的贝叶斯过滤技术来叙述相关的关键技术与方法,其中主要内容有:(1)计算邮件的MD5值,系统通过计算每封邮件的MD5特征值,来统计内容相同邮件出现的次数,当次数超过一定阈值β时,认为这些为垃圾邮件;(2)根据N-最短路径方法对中文邮件进行中文分词处理,通过改进的向量空间模型方法在计算机中表示文本;(3)在特征项选取方面,提出一种基于粗集属性重要度和属性依赖度的约简算法,利用基于粗集的属性约简方法,在不损失原有信息的前提下,(?)综合考虑条件属性和决策属性间的依赖性以及条件属性间的依赖性对约简的影响,获取属性的最优约简;(4)在贝叶斯分类技术中,朴素贝叶斯算法引入了“特征之间互相独立”的假设,而在实际的中文邮件中,特征属性之间往往存有一定关联,当违背条件独立的假定时,简单贝叶斯分类器也表现出相当的鲁棒性,本文把特征间的这种依赖性考虑进来,提出了基于最优属性约简算法的贝叶斯分类器算法。它改善了属性变量间独立性的限制,提高了分类的准确性,使贝叶斯技术适用于更大的范围。此外,本文在此研究的基础上对该过滤方案进行了实验,设计与实现了一个中文垃圾邮件过滤系统。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究邮件分类的背景和意义
  • 1.2 当前主要的反垃圾邮件技术
  • 1.2.1 关键词过滤
  • 1.2.2 验证过滤器
  • 1.2.3 规则过滤器
  • 1.2.4 常用邮件内容过滤技术研究现状及存在问题
  • 1.3 本文研究的主要内容
  • 1.4 本文的组织结构
  • 第二章 中文垃圾邮件过滤系统中的关键技术
  • 2.1 中文词法分析
  • 2.2 分词算法描述
  • 2.2.1 基于字符串匹配的分词方法
  • 2.2.2 基于理解的分词方法
  • 2.2.3 基于统计的分词方法
  • 2.3 自动分词基本算法
  • 2.3.1 最大正向匹配算法描述(FMM算法)
  • 2.3.2 FMM算法举例
  • 2.3.3 算法评价
  • 2.4 常见分词算法比较
  • 2.5 N-最短路径方法
  • 2.5.1 粗切分
  • 2.5.2 N-最短路径
  • 第三章 中文垃圾邮件过滤系统中的特征项选择
  • 3.1 文本的表示
  • 3.2 向量空间模型
  • 3.3 常见的中文特征项选择
  • 3.3.1 特征表示
  • 3.3.2 特征提取
  • 3.4 基于粗集约简的特征提取
  • 3.4.1 粗糙集(Rough Set)理论
  • 3.4.2 约简粗集的特征选取
  • 第四章 中文垃圾邮件过滤系统模拟及分析
  • 4.1 现有的基于文本挖掘的邮件分类技术
  • 4.2 邮件自身的特点
  • 4.3 贝叶斯分类技术
  • 4.3.1 贝叶斯定理(Bayes)
  • 4.3.2 朴素贝叶斯分类(Naive Bayes)
  • 4.3.3 贝叶斯信念网络
  • 4.3.4 树状贝叶斯网络(Tree Angmented Naive Bayes)
  • 4.4 基于粗集属性约简的贝叶斯中文邮件分类的系统设计
  • 4.4.1 总体设计思想
  • 4.4.2 邮件预处理
  • 4.4.3 特征项选取
  • 4.4.4 基于依赖性的属性约简的贝叶斯邮件分类技术
  • 4.5 模拟和分析
  • 4.5.1 实例分析的重要性
  • 4.5.2 评估方法
  • 4.6 模拟系统的构建
  • 4.6.1 系统需要的数据准备
  • 4.6.2 测试所需环境
  • 4.6.3 实验结果
  • 4.6.4 实验总结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 创新与不足
  • 5.3 展望
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].基于客户端的个性化邮件再过滤系统[J]. 中国科学:信息科学 2018(12)
    • [2].从科幻到现实:人工智能的进化[J]. 译林 2017(02)
    • [3].一种新的邮件过滤技术研究[J]. 计算技术与自动化 2016(04)
    • [4].基于双隶属度模糊支持向量机的邮件过滤[J]. 计算机工程与应用 2010(02)
    • [5].基于负载均衡的邮件过滤网关的研究[J]. 电脑知识与技术 2008(36)
    • [6].基于贝叶斯网络的邮件过滤系统的设计[J]. 科学技术与工程 2008(13)
    • [7].基于聚类的类别模糊邮件过滤方法[J]. 计算机系统应用 2010(09)
    • [8].基于贝叶斯增量分类的邮件过滤研究[J]. 科学技术与工程 2009(09)
    • [9].一种改进自动更新的中文邮件过滤模型的设计[J]. 电脑知识与技术 2013(20)
    • [10].一种基于相关系数的多层邮件过滤系统[J]. 计算机应用研究 2010(12)
    • [11].应用精确代价因子的两层邮件过滤模型[J]. 计算机工程与应用 2010(34)
    • [12].Marshal8e6发布电子邮件过滤解决方案[J]. 计算机安全 2009(01)
    • [13].基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 南京工程学院学报(自然科学版) 2018(03)
    • [14].基于深度包检测技术的邮件过滤研究[J]. 电子测量技术 2014(04)
    • [15].基于自然语言处理技术的邮件检测系统[J]. 数字技术与应用 2019(06)
    • [16].基于贝叶斯分类的邮件过滤系统研究与实现[J]. 陕西理工学院学报(自然科学版) 2012(04)
    • [17].基于综合过滤技术的邮件过滤终端研究[J]. 计算机应用与软件 2011(06)
    • [18].基于粗糙集的两阶段邮件过滤方法[J]. 计算机应用 2010(08)
    • [19].基于WEB的企业邮件过滤策略及实现[J]. 信息技术 2008(05)
    • [20].新的基于最小风险的贝叶斯邮件过滤模型[J]. 计算机应用研究 2008(04)
    • [21].三支决策基于粒度的邮件过滤[J]. 电脑知识与技术 2016(17)
    • [22].基于P2P网络的个性化协同邮件过滤模型[J]. 计算机技术与发展 2011(06)
    • [23].基于多规则的客户端邮件过滤系统[J]. 铜陵学院学报 2008(02)
    • [24].基于过滤器的ILS邮件微信集成服务实践[J]. 新世纪图书馆 2019(06)
    • [25].基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现[J]. 电子设计工程 2018(17)
    • [26].基于粗糙集的加权朴素贝叶斯邮件过滤方法[J]. 计算机科学 2011(02)
    • [27].电子邮件过滤网关体系结构的探讨[J]. 科教文汇(中旬刊) 2008(08)
    • [28].基于Agent的邮件过滤与个性化分类系统设计[J]. 计算机技术与发展 2009(02)
    • [29].邮件过滤中特征选择算法的研究及改进[J]. 计算机应用 2009(10)
    • [30].基于机群技术的邮件过滤系统设计[J]. 微计算机信息 2008(09)

    标签:;  ;  ;  ;  ;  

    中文邮件过滤系统的研究与实现
    下载Doc文档

    猜你喜欢