论文摘要
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益滋生,作为商业广告、恶意程序或敏感内容的载体也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题。 支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。考虑到支持向量机的分类性能对核函数参数取值的强依赖性,用遗传算法优化SVM的核函数参数,并将GA-SVM算法应用于垃圾邮件过滤。本模型主要以探索为目的,观察其可行性和有效性。初步实验证明,该模型具有过滤效果好、训练时间短的特点。 本文首先介绍了垃圾邮件的基本知识,包括垃圾邮件的定义、发展历史和危害,然后介绍了现有的垃圾邮件过滤方法。基于SVM的垃圾邮件过滤方法是以内容过滤为主,文中相应地阐述了与内容过滤相关的文本分类以及机器学习的知识。其次,介绍了统计学理论中SVM理论的定义和邮件样本预处理工作。并由SVM理论引申出SVM垃圾邮件过滤算法,分析SVM算法的依赖性,提出用遗传算法优化核函数参数,构建垃圾邮件过滤模型。在模型实现部分还给出了重点代码框架。最后是对SVM垃圾邮件过滤模型性能评估和对其性能优化的讨论。 实验结果的评估表明,本论文提出的新的邮件过滤模型在一定环境下具备良好的过滤性能。
论文目录
相关论文文献
标签:垃圾邮件过滤论文; 支持向量机论文; 遗传算法论文; 遗传算法优化支持向量机论文;