论文摘要
随着互联网的不断发展普及,电子邮件因其使用方便、快捷、容易存储管理的优点,已经成为人们工作生活中不可或缺的交流工具。然而电子邮件带来了巨大便利的同时,也产生了极大的困扰——垃圾邮件问题。垃圾邮件的泛滥对互联网安全构成了极大的威胁,不仅占用了大量的带宽,严重浪费了网络资源,而且极大的影响了人们正常的工作生活。因此,反垃圾邮件工作具有重要的现实意义。面对日益严重的垃圾邮件问题,基于机器学习的垃圾邮件过滤技术成为研究的热点,其中基于支持向量机的垃圾邮件过滤研究更是倍受青睐,取得了一些研究成果。然而在垃圾邮件过滤技术研究和应用的过程中仍然存在一些问题有待解决。例如如何在尽量避免正常邮件不被误判的情况下,提高对垃圾邮件的识别能力、如何利用文本结构充分挖掘邮件语义信息,克服语义信息丢失问题以及如何通过整合现有过滤技术形成垃圾邮件过滤综合解决方案等。本文针对邮件过滤中存在的问题进行了研究,并最终构建了一个功能完善的垃圾邮件过滤系统。本文的主要工作包括以下三个方面:1.针对在垃圾邮件过滤过程中,正常邮件误判的问题,本文提出了一种基于加权支持向量机的垃圾邮件过滤方法。该方法在保证垃圾邮件识别能力的同时,有效减少了对正常邮件的误判。本文提出的基于加权支持向量机的垃圾邮件过滤方法,克服了传统的基于分类精度进行优化的分类方法对两类邮件的重要性未加以区别的缺点。该方法增加了两类邮件的类别权重及反映每封邮件重要性的权重,然后对支持向量机进行训练,得到垃圾邮件过滤器。通过调整类别权重,在保证分类精度的同时,尽可能的降低对正常邮件的误判率。实验结果表明该方法提高了过滤效果。2.针对垃圾邮件过滤时由于忽略文本结构而导致大量语义信息丢失的问题,本文提出了一种基于类别相关度量的词序列核,并将其应用于垃圾邮件过滤中,提高了垃圾邮件过滤的准确率。针对支持向量机中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核,并将其应用于支持向量机垃圾邮件过滤中。该方法首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减因子,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率最高,该方法提高了垃圾邮件过滤的准确率。3.针对单一垃圾邮件过滤技术难以达到满意过滤效果的问题,本文提出了一种多层次的垃圾邮件过滤解决方案,构建了一个功能完善的垃圾邮件过滤系统。在充分了解各种邮件过滤技术优缺点的基础上,为了克服单一过滤技术效果不理想的情况,本文集IP地址和DNS的黑白名单、对主题和附件名的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,充分发挥各种技术的优点,避免其缺点,最终构建了集邮件管理及邮件智能过滤功能于一体的垃圾邮件过滤系统。