论文摘要
数据挖掘是指从数据库中发现隐含的、新颖的、有用的信息的过程,关联分析是数据挖掘的主要技术手段之一,至今已在理论和方法上取得了丰硕的研究成果。随着移动通信市场竞争的不断加剧和市场的日益饱和,移动通信企业的市场营销逐步由过去的产品中心论演变为客户中心论。以客户为中心、深入了解客户、引导客户、留住客户、提升现有客户的价值、提高客户的满意度、降低客户的流失率是提高移动通信企业利润的主要方法;而交叉销售则是提升现有客户价值进而提高企业利润的重要途径。本文针对移动通信企业的交叉销售需求,研究和提出了一种基于项目约束的频繁模式挖掘算法和一种优化的基于项目约束的关联规则产生算法,在此基础上建立了移动通信企业的交叉销售模型,提出了基于交叉销售的市场营销方法。所做工作归纳如下:1.介绍了数据仓库和数据挖掘技术,详细论述了数据挖掘中的关联分析,总结了关联分析的方法、特点和分类,重点讨论和研究了Apriori挖掘算法、基于FP-Tree的FP-Growth挖掘算法等目前常用的关联分析算法,并详细分析了它们的优缺点。2.Apriori算法以及FP-Growth算法虽然能够挖掘出数据库中隐含的所有频繁模式,但应用于移动通信企业海量数据的挖掘时运算量太大。因此,如何节省时间开销是频繁模式挖掘算法要解决的一个主要问题。解决这一问题的一种思路是:在移动通信企业的业务交叉销售中,通常只需要挖掘与某种特定业务或项目有关的频繁模式,而不必挖掘出数据中隐含的全部频繁模式。遗憾的是:对于这种具有特定导向性的频繁模式挖掘,目前常用的Apriori挖掘算法以及FP-Growth挖掘算法不是优化的,必须研究和采用新的挖掘算法。基于上述分析,本文提出了一种基于项目约束的频繁模式树ICFP-Tree (Items-Constraint Frequent Pattern-Tree)和直接在此树上挖掘所需频繁模式的新算法ICFP-Mine (Items-Constraint Frequent Pattern-Mine)。ICFP-Tree用来压缩存放所有包含约束项目的事务的相关信息;ICFP-Mine算法通过调整ICFP-Tree的相关节点信息直接在ICFP-Tree上采用深度优先的策略挖掘所需频繁模式,而不需要任何其它附加的数据结构,每次挖掘只需ICFP-Tree的一棵子树即可,既有效地节省了存储空间又大大提高了挖掘效率。理论分析和实验结果表明,ICFP-Mine算法在内存占用和时间开销等方面比Apriori算法和FP-Growth算法更优越。此外,本文还在常规的由频繁项集产生关联规则的方法中引入了项目约束,提出了一种优化的基于项目约束的关联规则产生算法。3.论述了交叉销售的基本理论、方法和步骤,研究了基于项目约束的、改进的关联分析算法在移动通信企业业务交叉销售领域中的应用,建立了移动通信企业的业务交叉销售模型,并对该模型的实际运用结果进行了详细的讨论和分析。