论文摘要
粗糙集理论是一种刻划不完整性和不确定性的数学工具,它主要的特点在于不需要关于数据的任何预备的或额外的信息就能够有效地分析和处理各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论已经在决策支持、模式识别、过程控制、机器学习等许多科学和工程领域得到成功的应用,并日益受到国际学术界的重视。粗糙集问题的核心在于数据离散化和属性的约简。但是,已经证明求解所有约简和求解最小约简都是NP-hard问题,因此,寻求快速的约简算法仍是粗糙集理论的主要研究课题之一。本文着重研究数据挖掘的粗糙集理论,尤其是数据离散和属性约简。关于属性的离散化,主要介绍了等频、等间距、Nave Scale算法、Semi Naive Scaler算法,并通过UCI数据集对几种离散化算法做了比较,我们并且发现,选取不同的算法,会导致后面约简结果产生很大差异。基于粗糙集理论的属性约简算法粗糙集中最核心的部分,文章主要讨论的约简算法包括:基于差别矩阵和逻辑运算的属性约简算法、改进的启发式属性约简算法、遗传算法、这些算法本身有着各自的特点。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种新的信息技术,它融合了数据库、人工智能、机器学习以及统计学等多种学科。Web挖掘将数据挖掘技术应用于大规模Web数据,能够发现有关用户浏览行为的隐藏模式规则,具有广阔的应用前景。Web挖掘可分为三种:Web使用挖掘、Web内容挖掘、Web结构挖掘。本文的研究重点在于Web使用挖掘(也称为Web日志挖掘)。日志挖掘是指通过挖掘Web日志记录来发现用户访问Web页面的模式,理解用户的行为,从而改进站点的结构,为用户提供个性化的服务,进一步分析和研究Web日志记录中的规律,改进Web站点服务器系统的性能。Web使用记录的挖掘日志:包括访问日志、引用日志、代理日志,错误日志等文件。Web日志挖掘包括三个阶段:数据预处理,模式发现,模式分析。所含的方法有:统计分析方法、关联规则方法、序列模式方法、聚类方法。日志预处理是Web日志挖掘过程中关键的一个部分。是对原始的日志文件中包含的不完整的、冗余的、错误的数据进行处理。当用户访问网络时,用户的所有信息将被保留在服务器中。由于Cookis、防火墙、和代理服务的存在,使数据的预处理更加的复杂。因此,数据预处理包括数据清洗、用户识别、会话识别、事物识别。在最后一章,我们详细的介绍了将粗糙集运用到整个日志挖掘的过程。