论文摘要
随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同时,许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此如何能够有效地防治垃圾邮件是一个有重要意义的现实问题。本文研究了大量国内外最新反垃圾邮件文献和数据,对己有的垃圾邮件过滤技术做出分析、总结和展望。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术是通过分析电子邮件的内容,来过滤垃圾邮件的一种技术。基于内容的垃圾邮件过滤本质上是文本分类问题,就是要将电子邮件经过预处理提取出邮件正文的文本内容,利用文本分类方法识别垃圾邮件的过程。本文对各种文本分类技术进行了深入调查研究,重点研究了当前流行的支持向量机理论、在文本分类中的重要应用以及当今利用支持向量机进行垃圾邮件处理的最新进展和技术实践。本文利用文本分类的方法处理当前流行的HTML类垃圾邮件。本文对HTML类电子邮件的预处理方法进行了深入的研究。对邮件的预处理,本文研究了文本解析和噪声去除技术,以及实用的中文分词技术、Lucene和GATE工具。提出了基于相似度曲线的特征提取策略。本文设计并实现了基于支持向量机的垃圾邮件过滤系统。采用正向最大匹配方法实现了中文分词,采用基于相似度曲线的特征提取策略和考虑位置因素的权重计算公式,采用支持向量机模型和LIBSVM工具包实现了对电子邮件的分类。通过对系统测试,实验表明采用支持向量机用于垃圾邮件过滤是实现垃圾邮件过滤的有效方法之一。
论文目录
摘要Abstract第1章 绪论1.1 课题来源1.2 课题背景及研究意义1.3 垃圾邮件过滤技术研究现状1.4 本文主要内容及章节安排第2章 电子邮件原理及文本分类技术2.1 邮件的传输过程2.2 常见的电子邮件协议2.3 电子邮件的报文格式2.4 电子邮件的解析过程2.5 文本分类2.5.1 文本表示2.5.2 中文分词2.5.3 文本特征项提取2.6 本章小结第3章 基于支持向量机的垃圾邮件过滤技术3.1 支持向量机理论3.1.1 理论背景3.1.2 支持向量机的思想和原理3.1.3 常见的核函数3.1.4 核函数作用及核参数的影响3.1.5 支持向量机方法的优点3.2 改进的SVM 算法3.2.1 基于SVM 算法的常见实现3.2.2 LIBSVM3.3 将SVM 理论用于垃圾邮件处理3.4 SVM 模型建立3.5 本章小结第4章 垃圾邮件过滤系统的预处理4.1 垃圾邮件的新形式4.2 针对HTML 格式垃圾邮件的处理4.2.1 基于HTML 结构特征的正文信息提取4.2.2 基于URL 黑名单的链接类垃圾邮件过滤4.3 中文分词4.3.1 建立停用词表4.3.2 建立基于词性和专业性的中英文分词词典4.3.3 运用开源软件包Lucene 和GATE 进行分词4.3.4 分词实现过程4.4 基于相似度曲线的特征提取4.5 本章小结第5章 基于SVM 的垃圾邮件过滤模型实现5.1 SVM 训练5.1.1 邮件样本集的选取5.1.2 训练调参5.1.3 训练步骤5.2 分类过程的设计与实现5.3 仿真实验5.3.1 软硬件环境5.3.2 垃圾邮件过滤系统的评价体系5.3.3 实验结果及分析5.4 本章小结结论附录参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:垃圾邮件过滤论文; 支持向量机论文; 特征选择和抽取论文;