论文摘要
互联网的迅速发展,给人们的学习、工作和生活提供了大量的有益进步的信息,带来了极大的便利,与此同时在大量进步有益的信息的背后同样存在着大量不良的信息,尤其对青少年的身心健康造成了极大的伤害。为了在动态的信息流中能根据用户的信息需求搜索用户感兴趣的信息,屏蔽其它无用和不良的信息,信息过滤技术应运而生。Rough集理论是一种处理不精确、不一致、不完整等问题的数学工具,无需提供问题所需处理的数据集合之外的任何先验信息,可直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。自20世纪80年代末以来,关于Rough集理论和应用的研究逐渐成为智能信息处理领域的热点问题。本文是基于Rough集理论的信息过滤系统研究,把Rough集理论的属性约简方法应用到信息过滤上,对不良信息进行过滤。本文主要工作如下;1.概述了Rough集理论、信息过滤技术的发展趋势和研究现状,以及相关的理论知识和相关技术。2.详细介绍了信息过滤之前数据预处理方法,特征提取方法等,并针对Rough集理论只能处理离散化数据问题研究分析了目前几种离散化方法,针对本实验系统,对Naive Scale算法进行了改进。3.讨论了几种属性约简算法,在仔细研究阅读相关文献的基础上分析了各算法的优缺点,最后给出了基于差别矩阵的改进算法,用数组存储差别矩阵元素,存储前进行冗余元素的删除,简化了差别矩阵,提高了效率,并将其应用到信息过滤系统中。4.最后在完成基于Rough集理论的信息过滤系统实验的理论研究的基础上,将其理论应用于实践,构建了一个信息过滤系统模型,并给出了实验结果,实现不良信息的过滤。利用Rough集的属性约简理论降低了信息的冗余度,提高了准确率,实现较好的过滤效果。