论文摘要
数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,是指从数据中提取模式的过程。同时,数据挖掘又是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有数据,做出归纳性推理,从中挖掘出潜在的模式,预测用户的行为帮助企业决策者调整市场策略,减少风险,做出正确决策。随着万维网的迅猛发展,产生了海量缺乏语义链接的Web数据,虽然人工智能(Artificial Intelligence)、统计学(Statistics)等成熟技术在各种特定领域从模糊数据中提取隐含的、潜在有用的信息和知识的过程中得到成功应用,但是,由于Web数据的特性以及数据挖掘或知识发现本身也是一个不成熟的、尚待进一步研究的领域,对研究人员仍然是一个巨大的挑战。对Web数据挖掘问题的研究有助于网络知识的综合利用,有助于及时调整决策策略,有助于提高系统安全。本课题首先学习和分析具有一种成熟的智能优化算法(遗传算法),然后在传统的数据挖掘方法的基础之上,从Web行为挖掘领域引入了GA,进行了聚类分析和关联规则挖掘,用户聚类分析为系统准确分析类用户群体的行为特征提供了重要依据,而通过遗传关联规则挖掘,优化并且丰富了类用户的行为特征,弥补了类用户由于访问量、时间的限制而可能产生的行为特征分析不全面,从总体上起到了优化预测的作用。处理数据源主要是Web站点的拓扑结构和用户访问日志,是整个系统的离线部分,从众多用户对Web页面的大量的点击中,分析Web用户的行为特征,实现用户聚类,再分析每一类用户的个性行为特征,得到描述用户行为方式的关联规则,为整个系统的个性化服务提供知识支持。
论文目录
摘要Abstract第一章 绪论1.1 数据挖掘介绍1.2 进化计算研究现状1.3 万维网的数据挖掘技术1.4 本文的工作第二章 Web数据挖掘技术2.1 数据挖掘的定义2.1.1 技术角度的定义2.1.2 商业角度的定义2.2 数据挖掘研究的内容2.2.1 广义知识2.2.2 关联知识2.2.3 分类知识2.2.4 聚类知识2.2.5 预测型知识2.2.6 偏差型知识2.3 数据挖掘技术2.3.1 关联分析2.3.2 分类和聚类分析2.3.3 神经网络2.3.4 决策树和规则推理2.4 数据挖掘的流程2.5 Web数据挖掘2.5.1 Web挖掘的概念2.5.2 Web数据挖掘的分类第三章 遗传算法简介3.1 遗传算法的基本概念3.1.1 遗传算法的生物学基础3.1.2 遗传算法的发展史3.1.3 遗传算法的形式化描述3.2 标准 GA的基本操作3.3 遗传算法理论研究概况3.4 遗传算法的基本结构和特征3.5 设计遗传算法的基本原则和步骤3.6 遗传算法在其它领域的应用性研究3.7 改进遗传算法3.7.1 改进遗传算法介绍3.7.2 改进遗传算法流程3.7.3 改进遗传算法实验结果第四章 基于遗传算法的关联挖掘研究4.1 关联规则简述4.2 关联规则挖掘算法4.2.1 Web关联规则简述4.2.2 关联规则挖掘算法 DHP(Direct Hashing and Pruning)4.3 遗传关联规则挖掘的设计与实现4.3.1 遗传关联规则挖掘分析4.3.2 遗传关联规则挖掘的具体实现4.4 实验结果第五章 结束语和工作展望5.1 结束语5.2 工作展望致谢参考文献附录
相关论文文献
标签:数据挖掘论文; 数据论文; 聚类论文; 遗传算法论文; 关联规则论文;