论文摘要
随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习方法自动构建个性化的过滤模型已经成为垃圾邮件过滤研究重点之一。运用机器学习方法,也就是预先人工判定邮件的类别,将垃圾邮件过滤当作文本分类的一个分支来处理。因为训练过程中同时使用了正常邮件和垃圾邮件的特征,所以最终生成的过滤器可以自适应不同用户的邮件分布。许多机器学习方法已经应用到了垃圾邮件过滤领域,取得了较为满意的结果,但由于每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。针对这些问题,本文提出一种基于偏最小二乘(PLS)的特征抽取方法。新方法的基本思想是:通过分析邮件原始特征与对应类别之间的关系求解二者之间协方差的最大化问题。对高维的原始特征进行多次线性组合的迭代处理,并用偏最小二乘回归函数进行拟合,分别提取出最能反映原高维数据的特征向量组合,从而达到降低特征维数和克服多重相关性的目的。然后应用交叉有效性算法得到最佳的特征维数后用提取出的向量构造新的向量空间。本文采用CEAS 2006的基准数据集——Enron-Spam数据集进行了过滤实验,并与目前常用的χ2特征选择方法进行了对比实验,实验结果表明,新方法在较低维数上可以获得良好的邮件过滤性能,是一个可行而有效的邮件过滤方法。本文的主要创新点如下:1.将偏最小二乘特征抽取方法应用于邮件过滤领域,有效地解决了邮件数据中普遍存在的高维数、数据稀疏性和多重相关性问题;2.采用交叉有效性算法来确定抽取出的特征维数,提高了模型效率。
论文目录
相关论文文献
- [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
- [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
- [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
- [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
- [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
- [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
- [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
- [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
- [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
- [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
- [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
- [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
- [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
- [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
- [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
- [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
- [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
- [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
- [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
- [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
- [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
- [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
- [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
- [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
- [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
- [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
- [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
- [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
- [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
- [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)