基于Rough集理论的信息过滤研究

基于Rough集理论的信息过滤研究

论文摘要

互联网的迅速发展,给人们的学习、工作和生活提供了大量的有益进步的信息,带来了极大的便利,与此同时在大量进步有益的信息的背后同样存在着大量不良的信息,尤其对青少年的身心健康造成了极大的伤害。为了在动态的信息流中能根据用户的信息需求搜索用户感兴趣的信息,屏蔽其它无用和不良的信息,信息过滤技术应运而生。Rough集理论是一种处理不精确、不一致、不完整等问题的数学工具,无需提供问题所需处理的数据集合之外的任何先验信息,可直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。自20世纪80年代末以来,关于Rough集理论和应用的研究逐渐成为智能信息处理领域的热点问题。本文是基于Rough集理论的信息过滤系统研究,把Rough集理论的属性约简方法应用到信息过滤上,对不良信息进行过滤。本文主要工作如下;1.概述了Rough集理论、信息过滤技术的发展趋势和研究现状,以及相关的理论知识和相关技术。2.详细介绍了信息过滤之前数据预处理方法,特征提取方法等,并针对Rough集理论只能处理离散化数据问题研究分析了目前几种离散化方法,针对本实验系统,对Naive Scale算法进行了改进。3.讨论了几种属性约简算法,在仔细研究阅读相关文献的基础上分析了各算法的优缺点,最后给出了基于差别矩阵的改进算法,用数组存储差别矩阵元素,存储前进行冗余元素的删除,简化了差别矩阵,提高了效率,并将其应用到信息过滤系统中。4.最后在完成基于Rough集理论的信息过滤系统实验的理论研究的基础上,将其理论应用于实践,构建了一个信息过滤系统模型,并给出了实验结果,实现不良信息的过滤。利用Rough集的属性约简理论降低了信息的冗余度,提高了准确率,实现较好的过滤效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 问题的提出及课题来源
  • 1.2 国内外的研究现状与发展趋势
  • 1.2.1 Rough集理论的研究现状与发展趋势
  • 1.2.2 信息过滤的研究现状与发展趋势
  • 1.3 论文的主要工作与组织结构
  • 第2章 Rough集理论及信息过滤的基本概念
  • 2.1 Rough集理论
  • 2.1.1 集合与关系
  • 2.1.2 Rough集的基本概念
  • 2.1.3 约简及信息系统的表示
  • 2.1.4 属性约简的数据分析方法
  • 2.1.5 分明矩阵
  • 2.2 信息过滤的相关知识
  • 2.2.1 信息过滤的体系结构
  • 2.2.2 信息过滤的主要数学模型
  • 2.2.3 信息过滤系统性能评价
  • 2.3 小结
  • 第3章 数据预处理及连续值属性离散化方法
  • 3.1 数据预处理和特征项提取
  • 3.1.1 数据预处理
  • 3.1.2 特征项提取方法
  • 3.1.3 特征权重的计算方法
  • 3.2 连续值属性的离散化
  • 3.2.1 离散化问题的描述
  • 3.2.2 离散化方法的评价标准
  • 3.2.3 几种典型的离散化算法介绍
  • 3.3 小结
  • 第4章 Rough集属性约简算法的研究
  • 4.1 经典属性约简算法分析
  • 4.1.1 基于分明矩阵约简算法
  • 4.1.2 基于属性依赖度的约简算法
  • 4.1.3 基于条件信息熵的约简算法
  • 4.1.4 基于遗传算法的属性约简
  • 4.1.5 基于差别矩阵改进的属性约简算法
  • 4.2 属性值约简
  • 4.3 小结
  • 第5章 基于Rough集理论的信息过滤的设计与实现
  • 5.1 系统各模块的实现技术
  • 5.1.1 文本表示及特征项抽取处理方法
  • 5.1.2 决策表属性值的处理方法
  • 5.2 实验结果分析
  • 5.3 小结
  • 第6章 结论与展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于Rough集理论的信息过滤研究
    下载Doc文档

    猜你喜欢