基于属性论方法的垃圾邮件过滤系统设计与研究

基于属性论方法的垃圾邮件过滤系统设计与研究

论文摘要

在网络和通信技术迅速发展的今天,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件像瘟疫一样蔓延,给用户带来了极大的不便。大量的垃圾邮件不仅污染网络环境,还占用大量传输、存储和运算资源,影响网络的正常运行。因此,如何准确地从大量邮件中过滤无用的邮件,寻找用户所需的有用邮件,已成为当前一个热门话题——“垃圾邮件过滤”问题。 当前对垃圾邮件的识别主要有两种方法:根据利用IP,域名的”黑白名单”或自定义规则进行的邮件限制;或者根据学习到的垃圾邮件特征进行识别。前者主观性太强,容易造成大量合法邮件的误判和垃圾邮件的漏判。而后者则需要长时间的训练和学习。故目前的垃圾邮件过滤工具通常采用多层过滤,基本过滤层由白名单、白关键字、黑名单和黑关键字等组成,高级过滤层则采用基于内容的机器学习判别方法。 本文在深入分析垃圾邮件过滤方法的基础上,结合使用黑白名单法,将属性论方法巧妙地应用到邮件过滤领域,设计出一种新型的基于属性论方法的垃圾邮件过滤模型。由于垃圾邮件和合法邮件特征的识别可以看作是一种基于合取的复杂性质判断,并且以垃圾邮件或合法邮件特征库为定性基准的定性映射可表达为由多维属性确定的一个定性判断操作,因此我们可以利用此定性映射模型来过滤邮件。 为了提高效率,本系统利用索引结构组织庞大的特征向量空间,通过一系列的算法生成垃圾邮件和合法邮件各自的特征库。根据属性论的思想,对于每一个特征空间分量,本文引入权重{0,ε}表示各分量对最终结果的影响程度。然后,以加权后的特征向量作为定性基准,为测试邮件建立不同的定性映射模型。考虑到新邮件属于垃圾邮件或者合法邮件的程度,本系统引入转化程度函数。利用转化程度函数,计算新邮件与特征库中记忆模式的相似程度。对新邮件里的每个特征项都做同样计算并累加起来,最后根据累加值判断该邮件是否垃圾邮件。 经过大量的测试表明,基于属性论方法的垃圾邮件过滤系统能较好地过滤垃圾邮件,具有较高的正确率和召回率。实验证明基于属性论方法的垃圾邮件过滤模型是可行的,这为我们进一步研究邮件过滤打下较好的基础。

论文目录

  • 第一章 引言
  • 1.1 研究背景
  • 1.2 邮件过滤研究现状
  • 1.2.1 白名单和黑名单
  • 1.2.2 基于规则的过滤
  • 1.2.3 基于内容的过滤
  • 1.3 论文研究内容
  • 第二章 邮件文本信息的处理
  • 2.1 使用向量空间模型进行文档索引
  • 2.2 特征项
  • 2.2.1 特征项的定义
  • 2.2.2 特征项的权值
  • 2.3 特征选择方法
  • 2.3.1 文档频率
  • 2.3.2 互信息
  • 2.3.3 信息增益
  • 2统计量(CHI)'>2.3.4 x2统计量(CHI)
  • 2.3.5 相对熵
  • 2.4 性能评价体系
  • 第三章 判断与识别的定性映射模型
  • 3.1 事物质量互变规律诱导的最简性质判断及定性映射模型
  • p为区间向量和区间阵列的定性映射与初等判断'>3.2 基准Cp为区间向量和区间阵列的定性映射与初等判断
  • p为区间向量的定性映射'>3.2.1 基准Cp为区间向量的定性映射
  • p为区间阵列的定性映射和合取性质的初等判断'>3.2.2 基准Cp为区间阵列的定性映射和合取性质的初等判断
  • 3.3 多维加权定性映射
  • 内积与人工神经元'>3.4 定性基准的W积与人工神经元
  • 3.5 初等判断与模式识别
  • 3.6 转化程度函数
  • 第四章 基于定性映射模型的邮件过滤系统
  • 4.1 系统设计的理论基础
  • 4.2 系统体系结构
  • 4.3 系统实现关键技术
  • 4.3.1 预处理
  • 4.3.2 索引存取结构
  • 4.3.3 特征库生成
  • 4.3.4 邮件过滤算法
  • 4.3.5 动态更新模块
  • 4.4 实验以及性能分析
  • 4.4.1 实验语料与指标
  • 4.4.2 实验一:特征库生成阀值的选择
  • 4.4.3 实验二:转化程度函数选取
  • 4.4.4 实验三:过滤器性能分析
  • 4.4.5 实验结论
  • 第五章 系统的设计与实现
  • 5.1 工作流程
  • 5.2 主要数据结构以及核心类
  • 结论与展望
  • 致谢
  • 参考文献
  • 附录:攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  

    基于属性论方法的垃圾邮件过滤系统设计与研究
    下载Doc文档

    猜你喜欢