电信数据挖掘的数据质量评估技术研究

电信数据挖掘的数据质量评估技术研究

论文摘要

近年来,数据挖掘作为海量数据中知识提取的有效手段,已广泛应用于电信领域,如话费欺诈分析、客户细分、客户流失预测、交叉销售等。然而,现实中的电信数据往往质量较差,不能满足数据挖掘的要求,导致数据挖掘在电信中应用的成功案例较少,数据质量低下已成为制约数据挖掘在电信行业应用的主要瓶颈之一,因此,在进行数据挖掘之前,有必要进行数据质量评估,以衡量挖掘的可行性,避免时间和精力的浪费。对于数据质量评估,虽然前人已有较多的研究成果,但大部分集中在框架理论,较少涉及特定的行业背景和具体应用,而面向特定挖掘主题的数据质量评估,尚未有专门的文献讨论。本文针对电信数据挖掘的常用主题——欠费挖掘,在深入研究缺失和离群对数据挖掘影响的基础上,对面向数据挖掘的数据质量评估技术展开研究,具体的研究工作如下:1.对于缺失评估,提出类分布CD(Class Distribution)的概念,以衡量各个输入属性和目标属性之间的关联度,基于此,提出类分布差异的属性加权算法CAWA,算法能够区分不同输入属性对分类结果的重要性,并由此提出基于属性加权的缺失评估算法AMEA,以实现数据的缺失评估。实验结果表明,该评估算法能够合理量化缺失对挖掘结果的影响。2.对于离群评估,针对电信数据的特点,尤其是欠费数据非平衡的特性,分析了非平衡数据中的离群点对分类结果的影响,并结合超图离群检测(HOT)算法,提出离群度OD(Outlier Degree)的概念,基于此,提出非平衡离群评估算法IOEA,以实现数据的离群评估。实验结果表明,该离群评估算法能够合理量化离群对挖掘结果的影响。3.在缺失评估和离群评估的基础上,结合电信欠费数据挖掘本身的特点,提出一个较为完整的数据质量评估体系,该体系由缺失评估和离群评估两部分组成,并在实验的基础上,结合电信行业专家经验,给出评估得分向量的参考值。实验结果表明,该参考值能够对挖掘的可行性分析提供有意义的指导。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 目录
  • 1.绪论与综述
  • 1.1 引言
  • 1.2 数据挖掘研究概述
  • 1.2.1 数据挖掘的概念
  • 1.2.2 数据挖掘的分类和应用
  • 1.3 数据挖掘在电信行业的应用
  • 1.3.1 数据挖掘在电信中的应用分类
  • 1.3.2 数据挖掘在电信中的应用现状
  • 1.4 数据质量评估研究概述
  • 1.4.1 数据质量评估的背景和意义
  • 1.4.2 数据质量评估的研究现状
  • 1.5 论文内容与结构
  • 2.数据质量评估技术与方法
  • 2.1 引言
  • 2.2 面向数据挖掘的数据质量评估
  • 2.2.1 数据质量评估的意义
  • 2.2.2 数据质量评估的一般方法
  • 2.3 电信数据挖掘中的数据质量问题
  • 2.3.1 欠费挖掘中的非平衡问题
  • 2.3.2 缺失问题
  • 2.3.3 离群问题
  • 2.4 小结
  • 3.基于属性加权的缺失评估
  • 3.1 引言
  • 3.2 基于类分布的属性加权算法
  • 3.2.1 数据挖掘中的分类问题
  • 3.2.2 类分布、类分布差异和属性加权
  • 3.2.3 属性加权算法的实现
  • 3.3 基于属性加权的缺失评估算法
  • 3.3.1 缺失评估概述
  • 3.3.2 缺失评估算法的实现
  • 3.4 实验仿真
  • 3.5 小结
  • 4.基于超图的非平衡离群评估
  • 4.1 引言
  • 4.2 超图离群检测算法
  • 4.2.1 高维空间离群检测概述
  • 4.2.2 超图离群检测原理
  • 4.3 非平衡离群分析
  • 4.4 基于超图的非平衡离群评估算法
  • 4.5 实验仿真
  • 4.6 小结
  • 5.面向电信欠费挖掘主题的数据质量评估体系
  • 5.1 引言
  • 5.2 体系结构分析
  • 5.3 评估结果解释
  • 5.4 实验仿真
  • 5.5 小结
  • 6.总结与展望
  • 6.1 内容总结
  • 6.2 研究展望
  • 参考文献
  • 附录A:个人简历
  • 附录B:攻读硕士期间科研成果
  • 相关论文文献

    • [1].刍议智慧校园数据质量治理的主要问题[J]. 海峡科技与产业 2019(06)
    • [2].基于配电网台账数据质量信息化管理的分析[J]. 计算机产品与流通 2020(02)
    • [3].监管报送数据质量平台的设计与实现[J]. 信息技术与信息化 2020(01)
    • [4].电力物联网大数据质量智能评价技术与实现[J]. 通信电源技术 2020(04)
    • [5].寿险公司数据质量治理实践与思考[J]. 金融电子化 2019(12)
    • [6].探究大数据处理过程中的数据质量影响[J]. 网络安全技术与应用 2020(08)
    • [7].守牢监管数据质量生命线[J]. 中国农村金融 2020(14)
    • [8].守好金融监管的数据质量关口[J]. 中国农村金融 2020(14)
    • [9].坚持问题导向 夯实基层监管数据基础[J]. 中国农村金融 2020(14)
    • [10].国内外大数据质量研究述评[J]. 情报学报 2019(02)
    • [11].提升数据质量的方法和路径[J]. 农业发展与金融 2019(05)
    • [12].基于相关性的发电机组数据质量研究分析[J]. 机电信息 2019(26)
    • [13].高校数据治理中提升数据质量的方法研究[J]. 重庆理工大学学报(自然科学) 2019(08)
    • [14].数据质量研究述评:比较视角[J]. 农业图书情报 2019(07)
    • [15].论基础数据质量在电网企业ERP实施的重要性[J]. 经济师 2017(12)
    • [16].农业数据质量及评估方法探讨[J]. 安徽农业科学 2017(36)
    • [17].铁路大数据质量评估与优化方法研究[J]. 中国铁路 2018(02)
    • [18].数据质量的历史沿革和发展趋势[J]. 计算机科学 2018(04)
    • [19].高速公路交调数据质量管理系统设计[J]. 中国交通信息化 2018(05)
    • [20].大数据时代下数据质量的挑战[J]. 信息记录材料 2018(06)
    • [21].油田数据质量监督与控制模型研究[J]. 信息系统工程 2018(06)
    • [22].通用数据质量评估模型及本体实现[J]. 计算机研究与发展 2018(06)
    • [23].社会调查及数据质量评估研究进展[J]. 调研世界 2017(10)
    • [24].人力资源管理信息系统数据质量治理研究[J]. 信息化建设 2016(01)
    • [25].中远程防空导弹武器系统作战数据质量效能评估[J]. 火炮发射与控制学报 2015(02)
    • [26].智慧校园数据质量治理的关键问题[J]. 中国教育网络 2018(01)
    • [27].运营监测数据质量研究[J]. 数码世界 2018(05)
    • [28].挑战2 数据质量[J]. 中国教育网络 2016(04)
    • [29].基于可编排组件的数据质量治理技术研究[J]. 机电信息 2020(33)
    • [30].环境健康综合监测数据质量核查及工作建议[J]. 环境与健康杂志 2019(12)

    标签:;  ;  ;  ;  ;  ;  ;  

    电信数据挖掘的数据质量评估技术研究
    下载Doc文档

    猜你喜欢