基于内容的垃圾邮件过滤技术的若干研究

基于内容的垃圾邮件过滤技术的若干研究

论文题目: 基于内容的垃圾邮件过滤技术的若干研究

论文类型: 硕士论文

论文专业: 计算机软件与理论

作者: 王申

导师: 高庆狮

关键词: 垃圾邮件过滤,文本分类,机器学习,信息检索

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 电子邮件系统是互联网应用的一个成功典范,它诞生时间不长却给人们的工作和生活的诸方面带来了深刻变化。然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人的滥用。今天,垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,内容过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。内容过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。 我们分析了目前的垃圾邮件内容过滤技术,认识到垃圾邮件过滤技术与普通的文本挖掘问题存在着很多不同,我们对之进行了分析并提出了一系列改进。同时我们分析了垃圾邮件过滤技术不能进一步实用化的原因,并针对这些原因提出了一些解决办法。论文的具体内容包括: (1)我们总结和分析了目前基于内容的垃圾邮件过滤技术的现状,包括文本表示、特征选择、分类算法、评价体系,以及垃圾邮件过滤领域中常用的公共语料库。 (2)相比传统文本挖掘问题处理的对象,邮件包含了种类更丰富的信息。我们通过对现有工作的总结和分析,站在一个更高的高度,对垃圾邮件过滤所能使用的特征进行了总结和分类。其中有关“属性特征”的研究目前较少,我们对之进行了详细研究,包括属性特征的作用、如何将属性特征与普通文本特征相结合、以及属性特征的选择方法等。 (3)邮件语料样本的差异较大,尤其是在结构方面。我们从实验和理论两方面分析说明了邮件语料这种在结构上的差异性,并分析了这种差异对垃圾邮件过滤造成的负面影响。在此基础上,我们提出了一种基于结构特征的双层垃圾邮件过滤模型,并针对这种模型做了一系列的实验,结果表明常用分类器在使用这种模型后性能有较明显的提升,尤其是Na(?)ve Bayes算法,在使用了这种模型之后,分类效果大大提高。 (4)尽管基于内容的垃圾邮件过滤在技术上已经比较成熟,但是在实用上并没有得到与之相应的广泛应用。我们分析了基于内容的客户端垃圾邮件过滤不能进一步扩大实用的原因,并且提出了一种将逻辑上的客户端过滤器前移到服务器上的模型。同时,我们对用户信息建模和算法的增量式调整做了初步的探索。

论文目录:

声明

论文版权使用授权书

摘要

英文摘要

目录

第一章 引言

1.1 背景

1.2 对付垃圾邮件的方法简介

1.3 论文的主要研究内容

1.4 本文的内容安排

第二章 基于内容的垃圾邮件过滤

2.1 文本表示方法

2.2 特征选择

2.3 垃圾邮件过滤中常用的机器学习算法

2.3.1 基于规则的方法

2.3.1.1 Ripper

2.3.1.2 决策树方法(Decision Tree)

2.3.1.3 PART方法

2.3.1.4 Boosting方法

2.3.2 基于统计的方法

2.3.2.1 kNN方法

2.3.2.2 SVM

2.3.2.3 Rocchio方法

2.3.2.4 Winnow方法

2.3.2.5 Bayes方法

2.4 邮件过滤语料库

2.4.1 SpamAssassin语料

2.4.2 PU系列语料

2.4.3 Ling-Spam语料

2.4.4 其他语料

2.6 评价体系

2.6.1 沿用传统文本分类的评价体系

2.6.2 ROC评价方法

2.7 小结

第三章 多特征垃圾邮件过滤

3.1 邮件特征的分类

3.2 节点特征

3.2.1 短语特征

3.2.2 模式特征

3.2.3 有关节点特征的使用

3.3 属性特征

3.3.1 属性特征的分类效果

3.3.2 属性特征与传统文本特征的结合

3.3.3 特征选择

3.4 小结

第四章 基于结构的双层SPAM过滤模型

4.1 样本结构分布对分类的影响

4.1.1 文档频率DF在不同文件长度(结构)语料集中的分布

4.1.2 特征信息增益在不同长度(结构)文档集中的分布

4.2 基于结构的双层SPAM分类模型

4.3 SBF模型的效果分析

4.3.1 在SpamAssassin语料库上的实验结果

4.3.2 在Enron和SpamArchive的混合语料库上的结果

4.3.3 Na(?)ve Bayes效果分析

4.4 如何划分层次

4.5 小结

第五章 基于内容的垃圾邮件过滤的实用性研究

5.1 放在服务器上的客户端过滤器

5.1.1 基于内容的垃圾邮件过滤的实用情况分析

5.1.2 用户个性化的服务器端过滤器

5.2 用户个性化信息建模

5.2.1 用户个性化的过滤系统模型

5.2.2 用户个性化信息的获取

5.2.3 个性化信息的表示

5.3 增量式学习

5.4 小结

第六章 总结

6.1 论文工作总结

6.2 下一步研究方向

参考文献

作者简历

发布时间: 2006-12-27

参考文献

  • [1].基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D]. 曾志中.北京邮电大学2009
  • [2].基于内容的垃圾邮件过滤技术研究[D]. 杨丽华.西南交通大学2006
  • [3].基于意图分析的垃圾邮件过滤研究[D]. 金彩琴.陕西师范大学2011
  • [4].垃圾邮件过滤技术研究[D]. 欧德宁.山东大学2009
  • [5].基于网格的垃圾邮件过滤系统的研究与应用[D]. 洪艳芬.南昌大学2008
  • [6].基于内容的垃圾邮件过滤方法研究[D]. 李笛.合肥工业大学2008
  • [7].基于内容的垃圾邮件过滤技术研究[D]. 尹志喜.中北大学2007
  • [8].三维复合型垃圾邮件过滤技术的研究与实现[D]. 许志佴.上海交通大学2008
  • [9].基于最小风险的中文垃圾邮件过滤技术分析与设计[D]. 李元旗.湖南大学2012
  • [10].中文垃圾邮件过滤技术研究及应用[D]. 朱军.合肥工业大学2005

相关论文

  • [1].垃圾邮件过滤技术研究[D]. 林青.厦门大学2006
  • [2].垃圾邮件过滤技术算法研究[D]. 于洪杰.大连海事大学2007
  • [3].垃圾邮件过滤技术的研究[D]. 孙艳华.大连海事大学2007
  • [4].基于贝叶斯分类的中文垃圾邮件过滤方法研究和改进[D]. 胡睿.清华大学2006
  • [5].基于内容的垃圾邮件过滤技术的研究[D]. 贾菁.西北大学2007
  • [6].基于内容过滤的反垃圾邮件系统的设计与实现[D]. 程卫华.上海交通大学2007
  • [7].基于内容的垃圾邮件过滤技术研究[D]. 尹志喜.中北大学2007
  • [8].基于内容的垃圾邮件过滤研究与实现[D]. 李淑静.南京信息工程大学2006

标签:;  ;  ;  ;  

基于内容的垃圾邮件过滤技术的若干研究
下载Doc文档

猜你喜欢