基于偏最小二乘方法的垃圾邮件过滤研究

基于偏最小二乘方法的垃圾邮件过滤研究

论文摘要

随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习方法自动构建个性化的过滤模型已经成为垃圾邮件过滤研究重点之一。运用机器学习方法,也就是预先人工判定邮件的类别,将垃圾邮件过滤当作文本分类的一个分支来处理。因为训练过程中同时使用了正常邮件和垃圾邮件的特征,所以最终生成的过滤器可以自适应不同用户的邮件分布。许多机器学习方法已经应用到了垃圾邮件过滤领域,取得了较为满意的结果,但由于每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。针对这些问题,本文提出一种基于偏最小二乘(PLS)的特征抽取方法。新方法的基本思想是:通过分析邮件原始特征与对应类别之间的关系求解二者之间协方差的最大化问题。对高维的原始特征进行多次线性组合的迭代处理,并用偏最小二乘回归函数进行拟合,分别提取出最能反映原高维数据的特征向量组合,从而达到降低特征维数和克服多重相关性的目的。然后应用交叉有效性算法得到最佳的特征维数后用提取出的向量构造新的向量空间。本文采用CEAS 2006的基准数据集——Enron-Spam数据集进行了过滤实验,并与目前常用的χ2特征选择方法进行了对比实验,实验结果表明,新方法在较低维数上可以获得良好的邮件过滤性能,是一个可行而有效的邮件过滤方法。本文的主要创新点如下:1.将偏最小二乘特征抽取方法应用于邮件过滤领域,有效地解决了邮件数据中普遍存在的高维数、数据稀疏性和多重相关性问题;2.采用交叉有效性算法来确定抽取出的特征维数,提高了模型效率。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 引言
  • 1.1 研究背景
  • 1.1.1 垃圾邮件定义
  • 1.1.2 垃圾邮件发展现状及其危害
  • 1.2 反垃圾邮件技术现状
  • 1.2.1 反垃圾邮件立法
  • 1.2.2 垃圾邮件过滤技术
  • 1.3 垃圾邮件过滤技术介绍
  • 1.3.1 服务器端和客户端的邮件过滤
  • 1.3.2 白名单和黑名单
  • 1.3.3 设置过滤规则
  • 1.3.4 基于内容的垃圾邮件过滤技术
  • 1.4 本文研究的内容
  • 1.5 论文组织
  • 2 基于内容的垃圾邮件过滤技术概述
  • 2.1 邮件的表示
  • 2.2 项的权值
  • 2.3 维数约减
  • 2.3.1 特征选择
  • 2.3.2 特征抽取
  • 2.4 邮件过滤算法
  • 2.4.1 最小距离分类器(Ricchio)
  • 2.4.2 K 近邻分类器
  • 2.4.3 SVM 分类器
  • 2.4.4 决策树算法
  • 2.5 评价方法
  • 3 偏最小二乘特征抽取
  • 3.1 偏最小二乘概述
  • 3.1.1 偏最小二乘的产生背景与发展
  • 3.1.2 多重相关性问题
  • 3.1.3 偏最小二乘的基本思想及特点
  • 3.1.4 偏最小二乘的工作目标
  • 3.2 单变量的偏最小二乘回归
  • 3.2.1 算法推导
  • 3.2.2 交叉有效性
  • 3.3 偏最小二乘特征抽取
  • 3.3.1 基本原理
  • 3.3.2 数学公式推导
  • 3.3.3 偏最小二乘特征抽取方法
  • 4 实验与分析
  • 4.1 实验数据集及预处理
  • 4.2 数据集分析
  • 4.3 实验设计
  • 4.4 实验分析与讨论
  • 5 结论和今后的工作
  • 参考文献
  • 在学期间公开发表论文及著作情况
  • 致谢
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  ;  

    基于偏最小二乘方法的垃圾邮件过滤研究
    下载Doc文档

    猜你喜欢