论文摘要
如何从海量电子商务数据集中去发现有用的新规律和新概念,提高人们对大量、看似不相关数据的更深层次的理解与认识,并为之利用是数据挖掘的目的所在和主要研究任务。数据挖掘技术是目前国内外数据库和信息决策领域最前沿的研究方向之一,同时也是学术界和商业界共同关注的热点问题。针对关联规则传统经典算法Apriori有可能产生大量的候选集,以及可能需要重复扫描数据库的缺点。提出了一种改进的L_Apriori算法,改进算法立足于在挖掘项数最大频繁项目集时,不再访问全部数据库,仅关心数据库中项目数大于或等于最大频繁项目集的事务。改进算法节省存储空间,尤其适用于稀疏数据。算法通过仿真实验证明:在数据库数据记录数为10000条时能提高挖掘速度。论文从课题研究目的出发,概述了数据挖掘过程、数据挖掘技术及基本理论;重点研究讨论了经典关联规则算法Apriori,并从实例出发,分析了该算法存在的一些问题,并详细论述了改进算法L_Apriori的理论依据、改进算法模型设计、算法实现程序设计等。最后,论文以研究改进算法为基础,以实现实用系统为目的,介绍了基于电子商务的数据挖掘系统的设计目标与设计思路。该系统主要分为三个功能模块,会员分析挖掘模块、商品分析挖掘模块、预测推荐挖掘模块。会员分析挖掘模块主要包括分析会员个人信息、级别、客户流失原因模式。商品分析挖掘模块主要包括商品的销售分析,商品的销售关联分析。预测推荐挖掘模块根据会员以前的购买信息,根据算法挖掘出的关联关系为他推荐可能感兴趣的商品。数据挖掘系统采用JSF,Hibernate和Spring等开源框架技术,基于J2EE平台,采用Mysql作为后台数据库,利用了改进的Apriori算法,实现了对电子商务系统中的会员及商品的分析。该系统具有很大的实用价值。