基于RS理论和SVM的网络信息过滤技术的研究

基于RS理论和SVM的网络信息过滤技术的研究

论文摘要

随着互联网的飞速发展,人们获取了丰富的信息。然而,各种不良信息也随之泛滥,特别是反动、色情、暴力等有害信息极大地危害着社会的稳定和人们的身心健康,网络“垃圾”已经侵入了我们的生活。如何过滤掉与自己需求无关的信息,如何快速、准确的获得所需信息并免受非法信息的侵扰,已经成为当前互联网发展研究的热点。本文提出了一种新的将RS理论和二叉树多分类SVM算法相结合的网络信息过滤思想,通过改进的启发式相对属性约简和值约简,消除冗余属性和值,对变换后的数据表,采用一种带松弛因子的统计粗糙集算法生成决策规则,使挖掘出的规则更简洁,具有更高的可靠性,可以有效地避免生成规则的偶然性,从而降低误分类率。然后通过二叉树多分类SVM算法来训练SVM,将多分类转化为二值分类,算法采用先聚类再分类的思想,计算测试样本与子类中心的最大相似度和子类间的分离度,以构造决策结点的最优分类超平面。对于C类分类只需C ?1个决策函数,从而可节省训练时间。实验表明:RS理论和二叉树多分类SVM相结合的算法,可以降低训练模型的复杂度,从而在一定程度上减少了模型的过拟合现象,并提高了SVM的推广能力和训练速度,取得了较好的过滤效果。本文实现了一个位于邮件客户端,能对已有邮件进行学习,自动对新到邮件进行分类过滤的智能邮件过滤系统。该系统是基于POP3协议和SMTP协议,介于用户的邮件服务器和邮件接收软件之间的一个过滤层。系统中邮件的过滤分成两级实现:第一级是在邮件取下后,首先根据邮件信头内容进行过滤,进行邮件分解、内容分析、特征提取,并形成特征向量形式。第二级过滤的主体部分是基于二叉树SVM的多分类过滤器,核函数选用径向基函数。最后用大量电子邮件进行测试,计算邮件过滤评估函数,并与Naive Bayes方法、KNN算法、Boosting Trees算法几种过滤方法相比较。实验结果表明,该系统具有实时监控、自动更新邮件过滤模块的能力,使邮件过滤更高效、更准确。在电子邮件过滤中,由于垃圾邮件中含有的URL地址是通过授权获得的,因此,本文采用了基于URL地址进行垃圾邮件过滤的方法,通过捕获垃圾邮件中所含有的URL信息,这种方法对过滤含有URL的垃圾邮件相当快速、有效,是其它过滤方法难以做到的。

论文目录

  • 摘要
  • ABSTRACT
  • 引言
  • 第一章 网络信息过滤技术概述
  • 1.1 网络信息过滤定义
  • 1.2 网络信息过滤的研究与现状
  • 1.3 网络信息过滤的分类
  • 1.4 目前的网络信息过滤系统
  • 第二章 基于RS 理论的决策表约简
  • 2.1 RS 理论
  • 2.1.1 RS 理论概念
  • 2.1.2 决策表与区分矩阵
  • 2.1.3 决策规则
  • 2.2 决策表约简算法
  • 2.2.1 决策表属性约简
  • 2.2.2 决策表值约简
  • 第三章 基于SVM 的多分类方法研究
  • 3.1 SVM 理论
  • 3.1.1 SVM 基本方法
  • 3.1.2 结构风险最小化原则(SRM)
  • 3.1.3 最大间隔超平面分类器
  • 3.1.4 KKT 条件
  • 3.2 SVM 算法
  • 3.2.1 C-SVM 算法和ν -SVM 算法
  • 3.2.2 三种多分类SVM 算法
  • 3.3 二叉树多分类SVM 算法
  • 3.3.1 二叉树多分类SVM
  • 3.3.2 基于聚类的二叉树多分类SVM
  • 3.3.3 核函数的选取
  • 第四章 RS 理论和二叉树多分类SVM 算法在WEB 信息过滤中的应用
  • 4.1 RS 与SVM 的特点及其结合的优越性
  • 4.2 基于RS 理论和二叉树多分类SVM 的新算法
  • 4.2.1 改进的启发式相对属性约简
  • 4.2.2 二叉树多分类SVM
  • 4.3 RS 理论和二叉树多分类SVM 算法在WEB 信息过滤中的应用
  • 4.3.1 构建Web 信息过滤模型
  • 4.3.2 实验结果与分析
  • 第五章 二叉树多分类SVM 算法在电子邮件过滤中的应用
  • 5.1 系统总体设计
  • 5.2 基于二叉树多分类SVM 的邮件过滤器
  • 5.2.1 第一级过滤
  • 5.2.2 第二级过滤
  • 5.3 实验与性能分析
  • 5.3.1 性能评价准则
  • 5.3.2 实验结果与分析
  • 5.3.3 几种过滤方法比较
  • 5.4 基于URL 的垃圾邮件过滤
  • 5.4.1 HTML 格式垃圾邮件的特点
  • 5.4.2 基于URL 垃圾邮件过滤的工作原理
  • 5.4.3 测试
  • 第六章 总结与展望
  • 6.1 全文工作总结
  • 6.2 进一步工作展望
  • 参考文献
  • 发表文章目录
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于RS理论和SVM的网络信息过滤技术的研究
    下载Doc文档

    猜你喜欢