论文摘要
随着Internet的迅速普及,电子邮件已经成为现代通信主要手段之一。然而,垃圾邮件的存在却时刻威胁着电子邮件的使用安全。垃圾邮件作为商业广告、恶意程序和不健康内容的携带者,不仅占用网络带宽,同时造成用户时间、金钱上的浪费和情绪上的不良影响,严重侵扰着人们的正常生活。因此,反垃圾邮件行动刻不容缓,其技术也在不断地更新换代。目前,主要有基于IP层的反垃圾邮件技术、基于SMTP层的反垃圾邮件技术和基于邮件内容的过滤等技术的研发。在数据挖掘的文本挖掘启发下,本文致力于研究基于邮件文本内容上的垃圾邮件过滤技术。本文首先使用正向最大匹配法对邮件样本正文文本作分词处理,得到邮件的特征项。接着,利用互信息减少向量维数,构建邮件样本库。介绍目前比较流行的贝叶斯、KNN、向量空间、朴素贝叶斯等分类方法的原理,对这些算法进行比较分析。针对传统的KNN算法存在搜索速度慢、样本库容量依赖性强的缺陷,提出了一种基于KNN算法的混合分类器模型及实现。该算法首先利用各分类器对邮件进行处理得到分类结果,根据分类结果相同和不同决定是否再次进行KNN计算,这样避免有单一分类器的局限性,能够发挥每个分类器的优势。通过实验证明,该方法对于中文邮件过滤系统切实可行,效果良好,是一种对邮件进行过滤的新的有价值的尝试。最后,本文提出对多媒体的垃圾邮件过滤、手机中的垃圾短信过滤等科研方向有待进一步地开拓。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究的背景及研究意义1.2 目前国内外研究现状1.2.1 存在的问题1.2.2 主要技术1.3 本文研究的主要内容及章节安排第二章 数据挖掘技术2.1 数据挖掘概念和任务2.1.1 数据挖掘的概念2.1.2 数据挖掘的任务2.2 数据挖掘的过程、模式和方法2.2.1 数据挖掘的过程2.2.2 数据挖掘的模式和方法2.3 文本数据挖掘第三章 基于内容的反垃圾邮件技术应用研究3.1 概述3.2 KNN(K-Nearest Neighbor)算法及其模型3.3 基于汉明距离的K-最近邻算法3.4 贝叶斯算法及其模型3.5 向量空间(VSM)算法及其模型3.6 朴素贝叶斯算法及模型3.7 小结第四章 邮件过滤系统的预处理4.1 邮件过滤系统的总体设计4.2 文本的表示4.3 中文分词技术4.3.1 基于词典的字符串匹配分词方法4.3.2 基于理解的分词方法4.3.3 基于统计的分词方法4.3.4 本文中分词采用的方法4.4 特征值提取4.4.1 文档频率4.4.2 互信息量4.4.3 信息增益4.4.4 相对熵法4.4.5 本文提出的特征选取算法4.5 小结第五章 基于多分类器组合的垃圾邮件过滤系统的设计5.1 概述5.2 分类器组合的方法5.2.1 投票表决法和加权投票法5.2.2 Bagging与Boosting5.3 垃圾邮件过滤系统设计与实现5.3.1 垃圾邮件过滤系统设计5.3.2 垃圾邮件算法步骤5.4 单一过滤器的实现5.4.1 KNN算法5.4.2 贝叶斯算法5.4.3 基于汉明距离的KNN算法5.4.4 朴素贝叶斯算法5.5 组合过滤器的实现5.6 组合分类器的模型算法5.7 本章小结第六章 实验测试6.1 系统性能测试6.1.1 测试目的6.1.2 测试评价指标6.2 实验结果及分析6.3 小结第七章 结束语7.1 总结7.2 展望致谢参考文献
相关论文文献
标签:垃圾邮件论文; 数据挖掘论文; 组合分类器论文;