非平衡数据集分类算法及其应用

非平衡数据集分类算法及其应用

论文摘要

非平衡数据集是指同一个数据集中某些类的样本数远远少于其他类的样本数,它广泛存在于现实生活中.利用传统的机器学习方法分类,对于数目少的类来说分类准确率很低,而对于数目多的类则相对较高.但在非平衡数据集中,数目少的类往往是关注的对象,因此传统算法对于解决非平衡数据集分类问题的能力有限.近年来,非平衡数据集的分类问题得到了国内外专家的广泛关注,取得了一些成果,并在相关领域得到应用.本文在KAIG模型的框架下,基于信息粒的观点,对非平衡数据集分类问题和知识获取做了进一步的研究,并将其应用于电信客户流失预测领域中.本文主要取得了以下研究成果:(1)对KAIG算法进行了部分改进,引入了Purity参数来度量粒重叠的程度.实例表明它有利于确定粒重叠程度和在无法完全消除粒重叠现象时可以设定一个阈值来判断是否达到某种可接受的粒重叠程度,这为原有KAIG模型提供了一个新的度量工具.此外在利用次属性解决粒重叠问题时,若属性值为连续型数据,则将其转化为离散型数据再利用次属性来降低粒重叠程度,不断由Purity参数来决定是否校正次属性区间.虽然不能完全消除粒重叠,但是可以大大减少粒重叠的程度,有助于更有效地在属性值为连续型数值型数据中提取规则.实验表明改进的KAIG算法不仅对非平衡数据集分类性能较好,而且对于平衡数据集的分类性能也与其他传统分类算法基本相当,特别在当属性值是连续值时比原有KAIG算法分类性能更好.(2)将改进的KAIG算法应用于电信客户流失预测问题.由于电信客户流失是较为典型的非平衡数据集,以山西省某市某电信运营商2007年4月至7月的固定电话用户的数据为训练集,对其提取规则,并预测了2007年8月的客户流失情况.同时与目前该运营商以C5.0和Logistic回归方法为核心的客户流失预测模型进行了对比,实验证明了该算法的有效性.在针对电信客户流失预测的实际问题中,首次将ROC曲线引入来度量电信客户流失预测的准确率.本文对非平衡数据集的分类问题和电信客户流失的预测问题进行了一些研究.但是,如何对具有定性属性或者混合属性的非平衡数据集进行有效分类以及如何将竞争对手分析、服务质量等纳入电信客户流失预测模型中还值得研究.本文的研究工作只是一个尝试,相关工作还有待进一步研究.

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究的目的和意义
  • 1.2 国内外研究现状
  • 1.2.1 类分布对传统分类算法的影响
  • 1.2.2 随机抽样方法
  • 1.2.3 改进传统分类算法
  • 1.3 本文主要内容与组织结构
  • 第二章 非平衡数据集分类器性能的评价方法
  • 2.1 Accuracy方法
  • 2.2 F-measure方法
  • 2.3 ROC曲线
  • 第三章 KAIG算法的改进与构建
  • 3.1 信息粒
  • 3.2 Fuzzy ART算法机理
  • 3.2.1 Fuzzy ART的输入和输出
  • 3.2.2 Fuzzy ART的组成结构和特性
  • 3.3 基于 Fuzzy ART算法的信息粒
  • 3.3.1 同质指数 H-index
  • 3.3.2 不可分辨率 U-ratio
  • 3.3.3 粒重叠问题与纯度参数Purity的引入
  • 3.3.4 次属性
  • 3.4 改进 KAIG模型的建立
  • 3.4.1 算法步骤
  • 3.4.2 算法举例
  • 3.5 对比实验
  • 3.6 结论
  • 第四章 电信客户流失预测模型的建立与实现
  • 4.1 电信客户流失研究的背景和意义
  • 4.2 电信客户流失的定义和类型
  • 4.3 电信数据仓库的建立
  • 4.3.1 主题设计
  • 4.3.2 数据仓库模型设计
  • 4.4 电信数据的准备
  • 4.4.1 电信数据抽取
  • 4.4.2 宽表
  • 4.4.3 电信数据清洗
  • 4.5 电信客户流失预测模型的建立和结果
  • 4.5.1 个人电话
  • 4.5.2 办公电话
  • 4.5.3 公用电话
  • 4.6 结论
  • 第五章 结束语
  • 参考文献
  • 附录
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  ;  

    非平衡数据集分类算法及其应用
    下载Doc文档

    猜你喜欢