论文摘要
随着互联网上邮件的广泛使用,垃圾邮件的问题变得日益严重,它不仅消耗网络带宽和计算机时空开销,而且会对企业的正常运行和用户的正常工作造成严重的干扰。要解决垃圾邮件问题,必须综合法律、技术等手段。目前,国内外垃圾邮件过滤的技术有黑白名单技术、基于关键词匹配技术,以及基于内容的垃圾邮件过滤技术等等。本文对基于内容的垃圾邮件过滤技术研究现状进行了详细的介绍。它是当前解决垃圾邮件问题的主流技术,主要包括基于规则的内容分析方法和基于概率统计的内容分析方法两个研究方向。由于Rough集理论具备不需要任何先验信息,能在保持分类能力不变的前提下,通过属性约简,导出问题的决策规则的特点,因此在基于内容的垃圾邮件过滤技术上,引入Rough集理论。将该理论用于垃圾邮件过滤是一个新的研究方向。首先,文中重点研究分析基于Rough集的经典属性约简算法。进一步提出了一种改进的Rough集属性约简算法。实验证明该算法是可行的,高效的,尤其适用于大数据集的属性约简。然后详细介绍了基于Rough集的垃圾邮件过滤系统模型和工作流程;在垃圾邮件过滤的特征选择问题上,采用了改进的Rough集属性约简算法过滤掉冗余特征和不相关特征;将邮件正文内容特征集和邮件头的7个相关特征综合实现对邮件的识别,从而提高了系统过滤的正确率,降低垃圾邮件的错判率。最后通过三组对比实验表明:将Rough集理论应用于垃圾邮件过滤领域是可行的、高效的。
论文目录
摘要ABSTRACT第1章 引言1.1 研究背景和意义1.1.1 垃圾邮件的存在的状况1.1.2 垃圾邮件的定义1.1.3 过滤垃圾邮件的必要性和意义1.2 国内外垃圾邮件的过滤现状1.2.1 垃圾邮件过滤的法律实施现状1.2.2 垃圾邮件过滤的技术研究现状1.3 论文的主要研究内容1.4 论文的组织结构第2章 基于内容的垃圾邮件过滤技术的研究2.1 概述2.2 基于规则的内容分析方法2.2.1 Ripper方法2.2.2 决策树(Decision Tree)方法2.2.3 Boosting方法2.3 基于统计的内容分析方法2.3.1 Bayes方法2.3.2 SVM方法2.3.3 KNN方法2.4 小结第3章 Rough集理论简介3.1 Rough集的概述3.2 Rough集的基本概念3.2.1 信息表达系统和决策表3.2.2 上下近似集3.2.3 Rough度与近似精度3.2.4 相对约简的基本概念3.3 小结第4章 Rough集属性约简算法的研究4.1 经典属性约简算法的研究4.1.1 基于可辨识矩阵和逻辑运算的属性约简算法4.1.2 基于属性依赖度的属性相对约简算法4.1.3 基于属性频率的属性相对约简算法4.1.4 基于互信息的属性相对约简算法4.2 改进的Rough集属性约简算法4.2.1 启发式函数4.2.2 正区域的递增计算4.2.3 改进的Rough集属性约简算法4.2.4 实验结果及分析4.3 小结第5章 基于Rough集理论的垃圾邮件过滤系统5.1 邮件过滤系统的概述5.1.1 系统模块功能介绍5.1.2 邮件过滤系统中的Rough集模型5.1.3 Rough集模型中的条件属性和决策属性5.2 邮件训练集的预处理5.2.1 邮件内容特征提取的常用方法5.2.2 应用于邮件过滤系统中的特征提取5.3 Rough集在邮件过滤系统的应用5.3.1 数据离散化处理5.3.2 邮件过滤规则的获取5.3.3 过滤规则匹配算法5.4 实验结果分析5.4.1 评价性能指标5.4.2 实验数据选取5.4.3 实验结果分析5.5 小结第6章 结论与展望致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:电子邮件论文; 属性约简论文; 垃圾邮件过滤论文;