论文摘要
随着Internet的广泛应用,电子邮件已经是人们日常生活网络交流的重要途径。然而垃圾邮件作为商业广告、病毒程序或敏感内容的载体,已经对系统安全形成威胁,并且给人们的生活带来不便。反垃圾邮件问题已成为全球性的具有重大现实意义的课题。本文深入研究了垃圾邮件内容过滤技术,结合中文垃圾邮件的特点,设计并实现了一种基于自动分类技术的中文反垃圾邮件过滤引擎。该引擎分成预处理、训练、分类和反馈四个部分。在预处理方面,本文分别研究了邮件解码、中文分词、特征提取以及邮件的向量表示等子模块。对于中文分词,本引擎采用了中科院的汉语词法分析系统ICTCLAS;对于特征提取,采用了互信息值的方法。训练及分类是本文研究的重点。首先,对基本Winnow算法的指数形式和因子形式进行了统一,并由此推导出了Balanced Winnow算法的指数形式;其次,鉴于基本Winnow算法的抖动现象,提出了一种改进Winnow的反垃圾邮件过滤算法——Review Winnow,该算法不仅有效地缓减了抖动现象,而且所选用的损失函数能更真实地描述分类错误邮件的内在损失;再次,通过去除邮件样本集中存在的野点和利用改良的Boosting算法,提升了Winnow分类器的性能,并由此构建了ADOR-Winnow邮件分类器;最后实验证明,Balanced R-Winnow算法有效地缓减了抖动现象,ADOR-Winnow邮件分类器极大地提高了分类器性能。在反馈方面,本文提出了一种基于网格的反馈学习模型。该模型通过用户分类,将反馈级别从一般的两级延伸到系统级、域级、用户级三级。这种改进不仅有利于组间的协同过滤及集中式的反馈学习,而且有利于提高邮件分类器的过滤性能。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 国内外反垃圾邮件现状1.3 论文研究内容1.4 论文结构第二章 垃圾邮件内容过滤技术2.1 反垃圾邮件方法简介2.2 基于规则的垃圾邮件过滤技术2.2.1 Ripper2.2.2 Decision Tree2.2.3 Boosting2.3 基于统计的垃圾邮件过滤技术2.3.1 Bayes2.3.2 kNN2.3.3 SVM2.3.4 Winnow2.4 中文分词技术2.4.1 基于字典、词库匹配的分词方法(机械分词法)2.4.2 基于词的频度统计的分词方法(全切分)2.4.3 基于知识理解的分词方法2.5 小结第三章 中文反垃圾邮件过滤引擎的总体架构3.1 中文反垃圾邮件过滤引擎的总体结构3.2 邮件预处理模块3.2.1 邮件解码器3.2.2 中文分词3.2.3 特征提取3.2.4 邮件的向量表示3.2.5 预处理运行界面3.3 训练及分类模块3.4 反馈学习模块3.4.1 反馈学习的分类3.4.2 基于网格的反馈学习3.5 小结第四章 基于WINNOW 的反垃圾邮件分类器算法的改进与实现4.1 线性分类器4.2 WINNOW 分类算法4.2.1 基本Winnow 算法两种形式的统一4.2.2 Balanced Winnow 算法指数形式的推导4.3 REVIEW WINNOW 算法的提出与分析4.3.1 Review Winnow 的提出4.3.2 损失函数的选取4.3.3 Review Winnow Balanced 形式的推导4.3.4 惩罚因子的选取4.4 基于BALANCED R-WINNOW 算法的分类器性能的提升4.4.1 通过去除野点提升分类器性能4.4.2 通过AdaBoost 算法提升分类器性能4.4.3 ADOR-Winnow 邮件分类器的构建4.5 实验数据及分析4.5.1 实验样本集4.5.2 评价标准4.5.3 实验步骤4.5.4 实验结果及分析4.6 小结第五章 基于网格的反馈学习模型5.1 反垃圾邮件网格5.1.1 反垃圾邮件网格的角色5.1.2 反垃圾邮件网格的过滤流程5.2 基于用户分类的反垃圾邮件网格体系结构5.2.1 用户信息的获取5.2.2 用户信息的表示5.2.3 基于用户分类的反垃圾邮件网格体系结构5.2.4 服务器端的数据结构5.3 基于网格的反馈学习的处理流程5.3.1 反馈邮件的上传与处理5.3.2 GRIS 间的信息共享5.3.3 训练结果的分发5.4 小结第六章 总结与展望6.1 论文的主要工作及贡献6.2 下一步的工作参考文献致谢在学期间的研究成果及发表的学术论文
相关论文文献
- [1].基于Winnow算法的垃圾邮件过滤器研究[J]. 计算机应用 2009(S2)
- [2].基于改进平衡Winnow算法的短信过滤系统[J]. 微型机与应用 2010(19)
- [3].基于CAPTCHA和Winnow算法的垃圾短信过滤研究[J]. 计算机工程与设计 2011(01)
标签:垃圾邮件论文; 邮件解码论文; 中文分词论文; 特征提取论文; 算法论文; 损失函数论文; 野点论文; 反馈学习论文;
基于改进Winnow算法的中文反垃圾邮件系统的研究与实现
下载Doc文档