杨登吉林化工学院132022
摘要客户细分是客户关系管理中的首要任务,数据挖掘技术是实施客户细分的关键技术。本文介绍如何将SOM神经网络算法和k均值算法相结合,构建一种客户细分模型。
关键词客户细分SOM神经网络算法k均值算法细分模型
1.介绍
对于现代企业而言,相互之间的竞争已从产品的样式和质量上的竞争转移到争夺客户的竞争上来了。面对日益激烈的市场竞争,企业逐渐意识到维系与顾客之间的长久关系的重要性。数据挖掘技术可以企业在海量数据中同时更好地理解客户,找出高价值或者至少有利润的客户,并将这些客户进行适当的分类,由此决策者便能够对每一类客户提供有针对性的个性化服务。
国外诸多学者从人口统计、客户行为、价值、利益、忠诚等角度出发,获得了一些不同的细分方法。这些细分方法在实际运用中都取得了一定成效,而目前占据主流地位的还属基于行为和价值的客户细分方法。基于行为的细分方法认为行为变量是构建细分市场的最佳起点,通过对客户行为的测量,对客户进行分类;而基于价值的细分方法则认为客户的价值是构建细分市场的最佳起点,通过分析不同客户给企业带来的盈利,来对客户分类。
目前客户终身价值的研究还不成熟,客户细分更多采用基于行为的分类方法。本文介绍的客户细分模型也是基于行为分类,在选定了特定的行为变量后,比较了SOM神经网络算法和k均值算法的优缺点,结合两个算法构建一个客户细分的模型。
2.模型实现的方法
2.1行为变量的选取
本文在选取细分的行为变量时,在客户价值矩阵的两个变量基础上,增加了一个反应客户忠诚度的变量--客龄。客龄等于客户的开户日期与最近购买日期的时间差,单位为天数。也就是说,一共选取了三个行为变量,分别为平均购买金额A,购买次数F和客龄D。
2.2算法的设计
2.2.1K-均值的优缺点
K-均值算法的优点是简单、快速、有效。该算法的缺点是①不同初始值会导致不同的聚类结果;②要求事先输入聚类数目;③陷入局部极优;④对“噪声"和孤立点数据比较敏感。
2.2.2SOM算法的优缺点
SOM算法的优点是①由于不需要映射内的相互结合,计算量少;②算法中不需要微分计算,数学上非常简单。SOM的缺点是①SOM不能提供分类后精确的聚类信息,②缺乏具体的目标函数,使得不同SOM聚类的结果难以进行比较;③必须设定初始邻域宽度、初始学习率、网络类型、邻域函数这许多的参数。
2.2.3结合算法
K-均值需要指定聚类的个数,且初始的聚类质心是随机赋予的;而SOM只需输入向量就能产生分类。可将两种算法结合起来,形成一个结合算法。第一步,先执行SOM算法,输出聚类数目N和聚类质心Z={Z1,Z2,?,Zc}。第二步,将SOM输出的结果N,Z={Z1,Z2,?,Zc},用做K-均值算法的初始化条件,得到最后的聚类的结果。将两个算法结合起来后,因为得到合适初始值,K-均值算法的局部搜索能力变强,收敛速度提高。
2.3数据准备
客户信息表:共有9876条记录,经筛选保留字段为客户号、性别、年龄、受教育程度、婚否、未成年孩子的个数、职业、收入、房产、汽车、注册日期等。
商品数据表:有1561条记录,经筛选保留字段为商品号、商品名和商品属类标识。
交易记录表:有97425条记录,经筛选保留字段为商品号客户号、单价、数量、小计、日期。
建模的样本数据集由上述基本表融合而生成,新增变量平均购买金额、购买频率、客龄,在数据清理后,采用最小一最大标准将属性值标准化到[0,1],形成我们的挖掘数据库。
3.模型评估
3.1基于SOM网络的聚类质心
经过预定次数的训练之后,客户被自动分为了5类,所得各簇的聚类质心如表1所示:
表1SOM聚类质心
簇
C1
C2
C3
C4
C5
簇
质
心
平均购买额
0.334
0.241
0.235
0.235
0.34
购买次数
0.113
0.076
0.114
0.08
0.119
客龄
0.782
0.627
0.524
0.418
0.272
3.2基于K-均值的聚类质心为了进行比较,对样本数据指定K=5,执行k-均值后所得各簇的聚类质心如表2所示:
表2K-均值聚类质心
簇
C1
C2
C3
C4
C5
簇
质
心
平均购买额
0.17
0.345
0.419
0.307
0.325
购买次数
0.58
0.398
0.081
0.087
0.091
客龄
0.553
0.53
0.509
0.245
0.797
3.3基于结合算法的聚类质心样本数据采用结合算法后,所得各簇的聚类质心如表3所示:
表3结合算法聚类质心
簇
C1
C2
C3
C4
C5
簇
质
心
平均购买额
0.362
0.413
0.154
0.279
0.337
购买次数
0.078
0.067
0.047
0.066
0.293
客龄
0.28
0.588
0.445
0.803
0.533
3.4三种方法的比较三种算法的结果对比可以看出,类内距离标准方差对比如表4所示:
表4三种聚类法簇内方差
簇
簇内距离:方差(SOM)
簇
簇内距离:方差(K-)
簇
簇内距离:方差(结合)
购买额
次数
客龄
购买额
次数
客龄
购买额
次数
客龄
C1
O.12l
0.118
0.092
C1
0.089
0.045
0.101
Cl
0.095
0.042
0.085
C2
O.111
O.071
0.036
C2
0.065
0.147
O.162
C2
0.103
0.037
0.086
C3
0.124
0.117
0.032
C3
0.106
0.054
0,088
C3
0.08
0.033
0.138
C4
0.1ll
0.072
0.037
C4
0.105
0.074
0.088
C4
0.1l
0.041
0.049
C5
O.12l
0.12
0.09
C5
0.108
0.072
0.087
C5
0.063
0.135
0.103
4.结论从上述三种聚类分析算法的结果对比可以看出,在相同的分类数目下,基于结合算法的聚类的类内距离,比SOM网络客k-均值两种算法的类内距离小。这说明基于结合算法的聚类,各簇样本的分布均匀,聚类的效果好。
参考文献
【1】李莉.会员卡营销:我国零售企业建立客户忠诚的有力武器【J】.商场现代化,2005,8:32-33
【2】张红梅,夏南强.数据挖掘技术在零售业中的应用【J】.经济师,2006.1:4849
【3】王伟民.入世后过渡期我国零售业的现状及发展对策【J】.世界贸易组织动态与研究,2005.
【4】林宇.数据仓库原理与实践【M】.北京:人民邮电出版社,2003:123.124
【5】迈克尔?J?A?贝里,戈登?S?利诺夫著.袁卫等译.数据挖掘:客户关系管理的科学与艺术【M】.北京:中国财政经济出版社,2003.8:285,303-308