基于不平衡数据集的客户流失预测研究

基于不平衡数据集的客户流失预测研究

论文摘要

客户流失预测是数据挖掘算法在客户关系管理(CRM)的一个具体应用。数据挖掘领域目前面临的主要问题之一就是数据不平衡性。传统的数据挖掘算法以整体预测精度为训练目标,这样就导致多数类预测精度高,而少数类预测精度差。客户流失预测同样也面临了数据不平衡的问题,即流失客户预测精度差。例如,据调查,电信业的月平均流失客户为2%左右,如果全部将客户预测为正常客户,那么预测的整体精度就高达98%。虽然整体预测精度很高,但是对流失客户的预测精度却为0%。显然,这样的预测结果不能体现客户流失预测的价值,因此数据不平衡性成为影响客户流失预测精度的主要障碍。随着电信、金融等服务业对客户流失的关切度逐渐提高,研究如何解决客户流失预测中面临的数据不平衡问题就变得越来越重要。本文从研究数据挖掘领域中解决数据不平衡问题的方法入手,对克服客户流失预测中的数据不平衡问题进行了两个主要方面的研究,一是对数据的平衡处理,二是对传统机器学习算法的改进,具体有以下三方面内容:(一)本文研究了数据挖掘领域中常用于克服数据不平衡性的随机欠抽样法、SMOTE抽样法在客户流失预测领域的应用。实验结果表明,这些抽样法不一定能有效提高客户流失预测的精度,甚至可能降低。针对这两种抽样法的缺陷,本文对客户流失预测应用了重复随机欠抽样法,实验结果表明,该方法能有效提高客户流失预测精度。结论是该方法适合用于数据不平衡的客户流失预测。(二)本文研究了目前解决不平衡数据分类问题的算法之一的优化AUC算法在客户流失预测领域的应用。AUC是目前评价分类器对不平衡数据分类性能的主要评价标准。优化AUC算法即是以优化AUC值来获得最优的分类器算法,目前研究比较成熟的是基于梯度法优化AUC的线性分类器算法。本文基于梯度法容易陷于局部极值的缺陷,提出了用具有全局优化能力的遗传算法来优化AUC。实验结果表明,本文提出的改进算法优于原方法,但两种方法均不适合于数据不平衡的客户流失预测。(三)本文研究了加权支持向量机及其改进在客户流失预测的应用。加权支持向量机认为边界支持向量一定会被错误分类,从而提出通过根据正类和负类数量之比来确定正类和负类的惩罚参数,以调节数据不平衡的影响。本文提出的定理5.3.1证明了边界支持向量不一定会被错误分类,在一定程度上否定了加权支持向量机。在此基础上,本文提出了IWSVM,该算法以优化AUC为训练目标,采用遗传算法优化惩罚参数和核函数参数来获得最优的加权支持向量机。实验结果证明,IWSVM优于的加权支持向量机,也优于传统算法之一的C4.5。该方法适合于数据不平衡的客户流失预测。本文的研究工作是基于国家自然科学基金项目——客户流失预测理论与实证研究(项目号:70801021)的基础上进行的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景与意义
  • 1.2 国内外研究现状
  • 1.2.1 不平衡数据分类问题的研究现状
  • 1.2.2 客户流失预测研究现状
  • 1.3 本文主要内容与结构安排
  • 第2章 不平衡数据分类问题的分析与解决办法
  • 2.1 数据不平衡对数据挖掘的影响与原因
  • 2.1.1 正类样本稀少
  • 2.1.2 性能评价标准不恰当
  • 2.1.3 噪声
  • 2.1.4 阈值设置不合理
  • 2.2 不平衡数据集分类的性能评价标准
  • 2.2.1 F-measure
  • 2.2.2 ROC曲线与AUC值
  • 2.3 目前主要的解决办法
  • 2.3.1 抽样法
  • 2.3.2 代价敏感法
  • 2.3.3 元学习
  • 2.3.4 推进法
  • 2.3.5 优化AUC算法
  • 2.3.6 支持向量机的改进算法
  • 2.4 本章小结
  • 第3章 基于抽样法的客户流失预测研究
  • 3.1 现实的客户流失问题
  • 3.2 传统机器学习方法
  • 3.2.1 规则归纳学习
  • 3.2.2 决策数
  • 3.2.3 随机森林
  • 3.3 基于常用抽样法的客户流失预测研究
  • 3.3.1 随机欠抽样法
  • 3.3.2 SMOTE智能过抽样法
  • 3.3.3 实验研究
  • 3.4 基于改进抽样法的客户流失预测研究
  • 3.4.1 重复随机欠抽样法
  • 3.4.2 实验研究
  • 3.5 本章小结
  • 第4章 基于优化AUC算法的客户流失预测研究
  • 4.1 优化AUC算法
  • 4.2 遗传算法概述
  • 4.2.1 遗传算法的运算流程
  • 4.2.2 遗传算法的关键操作
  • 4.2.3 遗传算法的特点
  • 4.3 基于GA优化AUC的算法
  • 4.3.1 编码
  • 4.3.2 适应度函数
  • 4.3.3 遗传算法防早熟设计
  • 4.4 实验对比研究
  • 4.5 本章小结
  • 第5章 基于加权支持向量机的客户流失预测研究
  • 5.1 统计学习理论概述
  • 5.1.1 VC维理论
  • 5.1.2 推广性的界
  • 5.1.3 结构风险最小化
  • 5.2 支持向量机
  • 5.2.1 线性情况分类
  • 5.2.2 分线性情况分类
  • 5.2.3 加权支持向量机
  • 5.3 改进的加权支持向量机
  • 5.4 实验对比研究
  • 5.5 本章小结
  • 工作结论与展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文及科研成果
  • 相关论文文献

    • [1].基于客户细分的客户流失预测研究[J]. 通讯世界 2020(06)
    • [2].客户流失管理研究现状及展望[J]. 计算机系统应用 2017(12)
    • [3].浅谈客户流失[J]. 汽车维修技师 2017(05)
    • [4].客户流失研究综述[J]. 中国商论 2018(32)
    • [5].企业客户流失及对策研究[J]. 企业导报 2015(08)
    • [6].给不重视企业“生命”的药方(5)——客户流失防治方案:如何提供客户流失台账、报表与分析报告[J]. 汽车维修技师 2013(11)
    • [7].美国公司如何避免客户流失[J]. IT时代周刊 2010(11)
    • [8].基于层次分析法的商业零售业客户流失度分析[J]. 市场论坛 2008(05)
    • [9].基于深度置信神经网络的电信客户流失分析[J]. 通讯世界 2020(06)
    • [10].线上会员客户流失的建模与预测研究[J]. 管理现代化 2016(03)
    • [11].电子商务客户流失的建模与预测研究[J]. 计算机仿真 2012(05)
    • [12].你的客户流失了吗?[J]. 中国电信业 2012(06)
    • [13].数据挖掘在证券客户流失管理中的应用[J]. 科技管理研究 2011(10)
    • [14].邮政企业防止大客户流失对策探讨[J]. 邮政研究 2010(01)
    • [15].谈啤酒客户流失风险管理[J]. 啤酒科技 2009(04)
    • [16].基于深度学习的电信客户流失预测方法研究[J]. 电视技术 2020(04)
    • [17].基于自组织模糊规则归纳的电子商务客户流失预测[J]. 计算机应用与软件 2010(12)
    • [18].旅游业客户流失管理方法研究[J]. 商业研究 2008(08)
    • [19].农资企业:客户流失,该打谁的板子?[J]. 中国农资 2015(13)
    • [20].改进支持向量机在电信客户流失预测的应用[J]. 计算机仿真 2011(07)
    • [21].基于决策树技术的铁路货运企业客户流失问题研究[J]. 河南科技 2011(14)
    • [22].基于神经网络集成的电信客户流失预测建模及应用[J]. 大众商务 2010(06)
    • [23].如何保证老客户绝不流失?[J]. 北方牧业 2009(02)
    • [24].自我网络特征对电信客户流失的影响[J]. 管理科学 2017(05)
    • [25].基于决策树的证券客户流失模型[J]. 计算机应用与软件 2009(09)
    • [26].客户流失的五种解决方式[J]. 农化新世纪 2008(02)
    • [27].基于生存分析模型的电信客户流失研究[J]. 福州大学学报(哲学社会科学版) 2018(01)
    • [28].基于大数据分析的企业客户流失研究[J]. 现代国企研究 2015(12)
    • [29].大数据在客户流失预测中的应用研究[J]. 商业故事 2018(21)
    • [30].马年话营销——为什么客户满意度高,而实际客户流失数量也高?(7)[J]. 汽车维修技师 2014(09)

    标签:;  ;  ;  ;  

    基于不平衡数据集的客户流失预测研究
    下载Doc文档

    猜你喜欢