非平衡数据集分类方法研究及其在电信行业中的应用

非平衡数据集分类方法研究及其在电信行业中的应用

论文摘要

近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难点。所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式分类问题。在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降。本论文针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新的算法——AdaBoost-SVM-OBMS,该算法结合集成算法和采用错分样本点生成新样本点的过抽样技术。同时,在研究电信数据集特点和非平衡数据集分类方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测做了深入的研究和探讨。论文的主要研究工作如下:1.针对非平衡数据集分类问题,本文提出一种新的算法——AdaBoost-SVM-OBMS.该算法结合boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量与错分样本点同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别率。在AUC,F-value和G-mean等3个不同价格的评价指标下,针对8个benchmark数据集上对AdaBoost-SVM-OBMS算法进行了实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的对少数类和多数类具有较高的预测准确率。2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值的结果。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 摘要
  • 1.1 引言
  • 1.2 数据挖掘研究概述
  • 1.2.1 数据挖掘的概念
  • 1.2.2 数据挖掘的分类和应用
  • 1.3 数据挖掘在电信行业的应用
  • 1.4 论文内容与结构
  • 第2章 非平衡数据集分类技术研究现状
  • 摘要
  • 2.1 引言
  • 2.2 非平衡数据集分类困难的原因
  • 2.3 非平衡数据集分类方法
  • 2.3.1 非平衡数据集分类方法介绍
  • 2.3.2 非平衡数据集分类方法比较
  • 2.4 小结
  • 第3章 一种新的基于过抽样技术的非平衡数据集分类方法
  • 摘要
  • 3.1 引言
  • 3.2 ADABOOST-SVM-OBMS算法
  • 3.2.1 AdaBoost算法
  • 3.2.2 支持向量机
  • 3.2.3 AdaBoost-SVM-OBMS算法
  • 3.3 实验仿真与分析
  • 3.3.1 评价准则
  • 3.3.2 仿真实验
  • 3.4 小结
  • 第4章 非平衡数据集分类方法在电信欠费挖掘主题下的应用
  • 摘要
  • 4.1 引言
  • 4.2 电信数据挖掘背景
  • 4.3 电信欠费研究现状
  • 4.4 ADABOOST-SVM-OBMS算法在电信中的应用
  • 4.4.1 商业理解和数据理解
  • 4.4.2 数据预处理
  • 4.4.3 建立模型
  • 4.5 基于属性选择聚类的电信数据挖掘方法ASC-CVM
  • 4.5.1 问题分析
  • 4.5.2 实验结果分析
  • 4.6 小结
  • 第5章 总结与展望
  • 摘要
  • 5.1 内容总结
  • 5.2 研究展望
  • 参考文献
  • 附录A:个人简历
  • 附录B:攻读硕士期间科研成果
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  ;  ;  ;  

    非平衡数据集分类方法研究及其在电信行业中的应用
    下载Doc文档

    猜你喜欢