基于云理论与粗糙集的电信家庭客户聚类分析预处理研究 ——以江西电信数据为例

基于云理论与粗糙集的电信家庭客户聚类分析预处理研究 ——以江西电信数据为例

论文摘要

中国电信行业是目前增长最快的行业之一,同时也面临着激烈的竞争。随着“移动取代固话”的趋势越来越明显,客户资源成为各电信企业竞争的重点,特别是对高价值客户的争夺愈演愈烈,正确认识企业客户群是保留和争夺客户资源的基础。江西电信希望通过聚类分析从行为属性和账务属性辅以背景属性和成本属性来了解自己家庭客户的特征,然而这四个属性下面包含了500左右个属性,本文试图运用粗糙集和云理论对江西电信数据进行预处理,从而选择出些有代表性的属性来刻画江西电信家庭客户的特征。本文对数据挖掘中数据预处理进行了详尽的分析,比较当前学术界中存在几种数据预处理步骤,并将本文的数据预处理步骤界定为:数据清理、数据集成、数据转换、数据规约,介绍了数据预处理每个步骤可以运用的理论和原理。本文的整体思路是首先对领域专家给出的23个属性进行聚类分析,以此作为经过预处理后的数据的聚类能力的评价标准,在此思路下,本文首先对江西电信数据进行了数据补全,主要运用分析方法分析缺失数据产生的原因并对缺失数据进行针对性补全。为了得到更好的挖掘结果,本文利用SAS清理了江西电信数据中的异常点。由于云理论的亦此亦彼性,本文运用云理论的该特性对江西电信数据进行了离散,通过与其它离散算法比较,发现运用云理论进行离散取得了比较好的效果。本文对冗余属性来源进行了分析,并引入粗糙集理论中的属性重要度来作为属性选择的依据,且据此提出了属性选择的算法。在成功进行属性选择后,将进行预处理后的数据和没进行数据预处理的数据的分类能力进行了比较。最后对全文进行了总结,并对进一步的研究进行了展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 选题背景
  • 1.2 研究目的与意义
  • 1.3 研究思路与研究内容
  • 1.4 技术路线
  • 1.5 本章小结
  • 第2章 文献综述
  • 2.1 聚类分析在电信企业应用情况
  • 2.2 数据预处理研究现状
  • 2.2.1 数据预处理有关问题界定
  • 2.2.2 数据清理研究现状
  • 2.2.3 数据规约研究现状
  • 2.2.4 数据集成
  • 2.2.5 数据转换
  • 2.2.6 目前研究存在的问题
  • 2.3 粗糙集研究现状
  • 2.4 云理论研究现状
  • 2.5 本章小结
  • 第3章 数据预处理基本理论与方法
  • 3.1 数据清理
  • 3.1.1 遗漏数据处理
  • 3.1.2 噪声数据处理
  • 3.1.3 不一致数据的处理
  • 3.1.4 重复记录的清理
  • 3.2 数据集成
  • 3.3 数据转换
  • 3.4 数据规约
  • 3.5 本章小结
  • 第4章 数据补全和异常点检测
  • 4.1 数据补全
  • 4.2 江西电信数据抽取
  • 4.2.1 聚类分析指标体系初步选取
  • 4.2.2 数据抽样
  • 4.3 江西电信数据补全
  • 4.4 异常点处理
  • 4.5 江西电信异常数据处理
  • 4.6 本章小结
  • 第5章 数据离散化
  • 5.1 云理论
  • 5.1.1 云理论的提出
  • 5.1.2 云理论的基本概念
  • 5.1.3 云的数字特征
  • 5.1.4 云模型
  • 5.1.5 云发生器
  • 5.2 峰值云变换模型
  • 5.3 概念泛化
  • 5.4 江西电信数据离散化
  • 5.5 本章小结
  • 第6章 粗糙集理论属性选择
  • 6.1 粗糙集基本理论
  • 6.1.1 知识与知识库
  • 6.1.2 不精确范畴,近似与粗糙集
  • 6.2 知识约简
  • 6.3 属性冗余的来源
  • 6.3.1 不相关属性
  • 6.3.2 函数依赖和知识依赖
  • 6.4 属性重要性计算
  • 6.5 属性约简
  • 6.6 江西电信数据属性选择
  • 6.7 本章小结
  • 第7章 研究总结与展望
  • 7.1 全文总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 个人简历 在读期间发表的学术论文与研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于云理论与粗糙集的电信家庭客户聚类分析预处理研究 ——以江西电信数据为例
    下载Doc文档

    猜你喜欢