基于RS理论和SVM的网络信息过滤技术的研究

论文摘要

随着互联网的飞速发展,人们获取了丰富的信息。然而,各种不良信息也随之泛滥,特别是反动、色情、暴力等有害信息极大地危害着社会的稳定和人们的身心健康,网络“垃圾”已经侵入了我们的生活。如何过滤掉与自己需求无关的信息,如何快速、准确的获得所需信息并免受非法信息的侵扰,已经成为当前互联网发展研究的热点。本文提出了一种新的将RS理论和二叉树多分类SVM算法相结合的网络信息过滤思想,通过改进的启发式相对属性约简和值约简,消除冗余属性和值,对变换后的数据表,采用一种带松弛因子的统计粗糙集算法生成决策规则,使挖掘出的规则更简洁,具有更高的可靠性,可以有效地避免生成规则的偶然性,从而降低误分类率。然后通过二叉树多分类SVM算法来训练SVM,将多分类转化为二值分类,算法采用先聚类再分类的思想,计算测试样本与子类中心的最大相似度和子类间的分离度,以构造决策结点的最优分类超平面。对于C类分类只需C ?1个决策函数,从而可节省训练时间。实验表明:RS理论和二叉树多分类SVM相结合的算法,可以降低训练模型的复杂度,从而在一定程度上减少了模型的过拟合现象,并提高了SVM的推广能力和训练速度,取得了较好的过滤效果。本文实现了一个位于邮件客户端,能对已有邮件进行学习,自动对新到邮件进行分类过滤的智能邮件过滤系统。该系统是基于POP3协议和SMTP协议,介于用户的邮件服务器和邮件接收软件之间的一个过滤层。系统中邮件的过滤分成两级实现:第一级是在邮件取下后,首先根据邮件信头内容进行过滤,进行邮件分解、内容分析、特征提取,并形成特征向量形式。第二级过滤的主体部分是基于二叉树SVM的多分类过滤器,核函数选用径向基函数。最后用大量电子邮件进行测试,计算邮件过滤评估函数,并与Naive Bayes方法、KNN算法、Boosting Trees算法几种过滤方法相比较。实验结果表明,该系统具有实时监控、自动更新邮件过滤模块的能力,使邮件过滤更高效、更准确。在电子邮件过滤中,由于垃圾邮件中含有的URL地址是通过授权获得的,因此,本文采用了基于URL地址进行垃圾邮件过滤的方法,通过捕获垃圾邮件中所含有的URL信息,这种方法对过滤含有URL的垃圾邮件相当快速、有效,是其它过滤方法难以做到的。

论文目录

摘要

ABSTRACT

引言

第一章网络信息过滤技术概述

1.1 网络信息过滤定义

1.2 网络信息过滤的研究与现状

1.3 网络信息过滤的分类

1.4 目前的网络信息过滤系统

第二章基于RS 理论的决策表约简

2.1 RS 理论

2.1.1 RS 理论概念

2.1.2 决策表与区分矩阵

2.1.3 决策规则

2.2 决策表约简算法

2.2.1 决策表属性约简

2.2.2 决策表值约简

第三章基于SVM 的多分类方法研究

3.1 SVM 理论

3.1.1 SVM 基本方法

3.1.2 结构风险最小化原则（SRM）

3.1.3 最大间隔超平面分类器

3.1.4 KKT 条件

3.2 SVM 算法

3.2.1 C-SVM 算法和ν -SVM 算法

3.2.2 三种多分类SVM 算法

3.3 二叉树多分类SVM 算法

3.3.1 二叉树多分类SVM

3.3.2 基于聚类的二叉树多分类SVM

3.3.3 核函数的选取

第四章 RS 理论和二叉树多分类SVM 算法在WEB 信息过滤中的应用

4.1 RS 与SVM 的特点及其结合的优越性

4.2 基于RS 理论和二叉树多分类SVM 的新算法

4.2.1 改进的启发式相对属性约简

4.2.2 二叉树多分类SVM

4.3 RS 理论和二叉树多分类SVM 算法在WEB 信息过滤中的应用

4.3.1 构建Web 信息过滤模型

4.3.2 实验结果与分析

第五章二叉树多分类SVM 算法在电子邮件过滤中的应用

5.1 系统总体设计

5.2 基于二叉树多分类SVM 的邮件过滤器

5.2.1 第一级过滤

5.2.2 第二级过滤

5.3 实验与性能分析

5.3.1 性能评价准则

5.3.2 实验结果与分析

5.3.3 几种过滤方法比较

5.4 基于URL 的垃圾邮件过滤

5.4.1 HTML 格式垃圾邮件的特点

5.4.2 基于URL 垃圾邮件过滤的工作原理

5.4.3 测试

第六章总结与展望

6.1 全文工作总结

6.2 进一步工作展望

参考文献

发表文章目录

致谢

详细摘要

基于RS理论和SVM的网络信息过滤技术的研究

论文摘要

论文目录

相关论文文献

猜你喜欢