论文摘要
作为Internet的重大“灾难”之一,日益泛滥的垃圾邮件问题引起了人们的普遍关注。自上世纪80年代中期出现首封垃圾邮件以来,各种反垃圾邮件策略与技术也应运而生并得到了迅速发展,至今方兴未艾。然而,研究反垃圾邮件问题已经逐渐把研究者引入到了一个“不确定性花园”。由于对垃圾邮件的判别存在着主观和客观上的不确定性,造成了目前针对垃圾邮件的机器自动分类和过滤技术存在较大的性能瓶颈。经过多年的研究,有很多学者已经注意到利用不确定智能计算技术可以在一定程度上较好地处理实际工程应用中的某些不确定性推理问题,虽然相关研究尚不成熟,但正如很多研究者相信上帝并不是简单地通过掷骰子来创造人类一样,不确定性背后的某些奇妙的确定性规律正吸引着人们不懈地深入探索,并取得了阶段性的研究成果。本文认为不确定智能计算技术在某些层面上,同样可以有效处理垃圾邮件识别过程中存在的诸多主观和客观不确定性问题,因此研究不确定计算理论并应用相关理论改进现有邮件过滤算法和设计新的邮件过滤算法成为了本文的工作重点。不确定智能计算技术的引入,使研究反垃圾邮件问题成为了一件充满乐趣又富有挑战的工作。本文在全面吸取和借鉴目前在不确定智能计算领域和反垃圾邮件领域取得的最新技术成果的基础上,从理论和应用两个层面,深入细致地研究了不确定智能计算理论和反垃圾邮件技术。取得了如下的主要研究成果,包括:1、系统地分析了垃圾邮件问题的背景,指出研究反垃圾邮件技术的理论价值和现实意义。通过跟踪国内外反垃圾邮件技术的最新进展,较全面地归纳概括了现有反垃圾分类技术的发展状况,比较分析了各种方法的优点和不足。指出基于统计理论的不确定智能学习和分类方法是值得深入研究,并能够提高反垃圾邮件技术水平的重要理论手段。2、深入地研究了Bayesian网络理论,提出了一些改进和创新的方法。(1)对于一般复杂网络,提出了一种基于全局消息传播的PPJT算法。新算法可以将推理计算的时间复杂度有效降低,同时能够在较小规模观察样本条件下,保证一般复杂贝叶斯网络推理的精度需求。(2)对于Polytree条件下的复杂Bayesian网络,考虑将推理算法扩展到多机模式,通过分析Polytree条件下的中大型贝叶斯网络的结构,定义新的适用于多处理机环境下的并行证据处理格式,并提出基于多处理机的并行推理算法,为提高Polytree条件下中大型贝叶斯网络的全局证据传播效率提供了一种并行解决方案。(3)研究了不完备证据条件下的参数学习问题,基于标准似然函数构建证据丢失的计算模型,利用χ2距离近似估计证据丢失导致的误差距离,推导出了包含学习率的EM算法。实验结果表明,新算法与传统处理算法相比,在不降低估计精度的前提下具有更快的收敛速度,能够较好地保证不完备证据条件下可信高效的Bayesian网络参数估计。3、提出了一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够比较有效地实现垃圾邮件的分类过滤。4、尝试采用拟合Logistic Regression模型对邮件分类问题建模,并在建模的过程中通过引入偏依赖系数函数模拟了邮件过滤中的偏依赖特性。在不同邮件样本集中的实验结果显示,新的邮件分类模型对垃圾邮件的误报误差和漏报误差具有良好的不对称区分性,因而从算法的层次上实现了具有偏依赖特征的邮件分类器。5、为了规避目前反垃圾邮件技术在文本关联和内容理解方面所存在的诸多困难,提出从另一个角度研究垃圾邮件分类过滤问题,即从垃圾邮件发送者的行为模式角度出发研究邮件类别。通过从邮件发送者的行为紧密相关的邮件特征提取对应特征向量,并应用支持向量机的方法构建分类函数,提出一种基于行为特征的垃圾邮件模式分类模型。经过仿真实验我们发现采用这种全新的行为特征分类模型判定邮件的类别具有较精确的判定效果和较强的鲁棒性。6、构建了一个位于邮件服务器前端的、多层次的垃圾邮件过滤系统—SpamWeeder。SpamWeeder系统集成了本文提出的基于多级属性集的Naive Bayes邮件分类,基于Bayesian网络的邮件分类,基于Logistic回归模型的邮件分类和基于行为特征的邮件分类等多种方法,各种方法之间相互协作、互相补充,形成一个比较准确、快速、高效、易管理和满足不同个性化要求的反垃圾邮件过滤系统。
论文目录
相关论文文献
- [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
- [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
- [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
- [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
- [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
- [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
- [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
- [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
- [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
- [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
- [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
- [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
- [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
- [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
- [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
- [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
- [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
- [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
- [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
- [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
- [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
- [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
- [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
- [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
- [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
- [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
- [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
- [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
- [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
- [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)
标签:垃圾邮件论文; 误报率论文; 漏报率论文; 网络论文; 证据理论论文; 核密度估计论文; 支持向量机论文; 回归论文;