基于粗糙集的数据分析模型及其在垃圾邮件过滤中的应用

基于粗糙集的数据分析模型及其在垃圾邮件过滤中的应用

论文摘要

粗糙集理论是由波兰华沙理工大学Pawlak教授于20世纪80年代提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。目前,粗糙集理论已经成为数据挖掘领域的重要方法。论文主要研究了基于粗糙集的数据挖掘算法,包括数据补齐,离散化,属性约简和值约简。(1)论文在总结和借鉴前人经验的基础上,针对基于可辨识矩阵的数据补齐算法的应用范围较小,提出在算法中引入不精确数据相似度的概念,改进后的补齐算法在一定程度上能够使更多的数据得到补齐。(2)在离散化方面,布尔逻辑和粗糙集相结合的离散化算法的精度较高,但在条件属性个数及实例个数很多的情况下,算法时间和空间复杂度也比较高。论文提出基于断点分类预测的离散化方法,在精度相当的情况下,在一定程度上降低算法复杂度。(3)属性约简是粗糙集理论的核心内容之一,基于遗传算法的属性约简得到了广泛应用,但在一些情形下只是能够得到接近最优解的结果,并不能保证最后的结果是最优的,有时候得到的结果并非一个约简。论文提出将遗传算法和贪心算法结合起来进行属性约简,能够保证生成的结果是一个约简或者包含一个约简。(4)在决策表值约简算法中,通常的算法并未考虑到值约简后规则的可信度。论文在值约简中引入可信度概念,提出一种基于可信度最优的值约简算法,在一定程度上减少约简后的实例数并提高分类正确率。论文在研究基于粗糙集的数据挖掘算法基础上,建立一个基于粗糙集的数据分析模型,并设计出一个基于“用户个性化”的垃圾邮件智能分析过滤概念系统模型,将所建立的数据分析模型应用在邮件过滤模型中,对邮件数据进行分析,挖掘出隐含在数据中的分类规则,降低垃圾邮件错判率,解决邮件过滤中的邮件分类问题,取得较好的效果,对粗糙集理论在其他行业的应用也有一定的启发与借鉴意义。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 引言
  • 1.1 课题研究背景及意义
  • 1.2 国内外研究现状分析
  • 1.2.1 基于粗糙集的数据分析技术研究状况
  • 1.2.2 垃圾邮件的智能分析、自动过滤研究状况
  • 1.3 课题的研究内容、预期成果及论文组织结构
  • 1.3.1 研究内容
  • 1.3.2 预期成果
  • 1.3.3 论文组织结构
  • 2 数据挖掘技术
  • 2.1 数据挖掘技术的产生背景
  • 2.1.1 商业需求分析
  • 2.1.2 技术背景分析
  • 2.2 数据挖掘概念
  • 2.3 数据挖掘的结构和过程
  • 2.3.1 数据挖掘的结构
  • 2.3.2 数据挖掘的过程
  • 2.4 数据挖掘的方法
  • 2.5 数据挖掘的应用
  • 2.6 数据挖掘所面临的困难和研究方向
  • 2.6.1 数据挖掘所面临的困难
  • 2.6.2 数据挖掘未来的研究方向
  • 3 粗糙集理论基础
  • 3.1 信息系统
  • 3.1.1 基本概念
  • 3.1.2 决策表
  • 3.2 粗糙集理论
  • 3.2.1 基本概念
  • 3.2.2 粗糙度和分类质量
  • 3.2.3 知识约简
  • 4 基于粗糙集理论的数据分析模型
  • 4.1 数据预处理
  • 4.1.1 数据补齐
  • 4.1.1.1 基于可辨识矩阵的数据补齐算法
  • 4.1.1.2 基于不精确数据相似度的数据补齐改进算法
  • 4.1.1.3 实验结果与分析
  • 4.1.2 数据离散化
  • 4.1.2.1 离散化问题的提出
  • 4.1.2.2 离散化方法研究与分析
  • 4.1.2.3 基于断点分类预测的离散化改进算法
  • 4.1.2.4 实验结果与分析
  • 4.2 属性约简
  • 4.2.1 属性约简思想
  • 4.2.2 基于遗传算法的属性约简算法
  • 4.2.2.1 传统基因算法流程
  • 4.2.2.2 可辨识矩阵的二进制串表示
  • 4.2.2.3 用遗传算法对粗糙集属性约简的实现流程
  • 4.2.3 基于贪心遗传算法的属性约简改进算法一
  • 4.2.3.1 贪心算法部分
  • 4.2.3.2 遗传操作部分
  • 4.2.3.3 算法描述
  • 4.2.4 基于贪心遗传算法的属性约简改进算法二
  • 4.2.4.1 贪心算法部分
  • 4.2.4.2 遗传操作部分
  • 4.2.4.3 算法描述
  • 4.2.5 实验结果与分析
  • 4.3 值约简
  • 4.3.1 值约简思想
  • 4.3.2 一种启发式值约简算法
  • 4.3.3 基于可信度最优的值约简改进算法
  • 4.3.4 实验结果与分析
  • 5 垃圾邮件过滤系统分析与设计
  • 5.1 电子邮件体系
  • 5.1.1 电子邮件的结构与传输
  • 5.1.2 相关网络协议
  • 5.2 基于"用户个性化"的垃圾邮件过滤概念系统
  • 5.2.1 邮件自动分类
  • 5.2.2 预处理
  • 5.2.3 向量空间模型
  • 5.2.4 二次过滤
  • 6 基于粗糙集的数据分析模型在垃圾邮件过滤中的应用
  • 6.1 应用背景
  • 6.2 数据挖掘设计思想
  • 6.3 垃圾邮件过滤系统中的粗糙集数据分析模型
  • 6.4 垃圾邮件过滤系统的信息建模
  • 6.5 基于粗糙集理论的垃圾邮件分析模型的工作流程
  • 6.6 实验原型系统
  • 6.6.1 系统功能
  • 6.6.2 系统主程序结构
  • 6.6.2.1 规则生成
  • 6.6.2.2 样本测试与识别
  • 6.6.3 原型系统的特点
  • 6.6.4 算法执行时间的比较实验
  • 6.7 实验与评价
  • 6.7.1 数据准备
  • 6.7.2 数据预处理
  • 6.7.3 属性约简
  • 6.7.4 值约简并提取规则
  • 6.7.5 测试实验
  • 6.7.6 对比实验
  • 6.7.7 实验评价
  • 7 结论与展望
  • 7.1 论文研究成果
  • 7.2 论文存在不足及今后进一步研究的内容
  • 7.2.1 论文存在的不足
  • 7.2.2 今后进一步研究的内容
  • 致谢
  • 参考文献
  • 附录A:攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  ;  

    基于粗糙集的数据分析模型及其在垃圾邮件过滤中的应用
    下载Doc文档

    猜你喜欢