论文摘要
中国电信行业是目前增长最快的行业之一,同时也面临着激烈的竞争。随着“移动取代固话”的趋势越来越明显,客户资源成为各电信企业竞争的重点,特别是对高价值客户的争夺愈演愈烈,正确认识企业客户群是保留和争夺客户资源的基础。江西电信希望通过聚类分析从行为属性和账务属性辅以背景属性和成本属性来了解自己家庭客户的特征,然而这四个属性下面包含了500左右个属性,本文试图运用粗糙集和云理论对江西电信数据进行预处理,从而选择出些有代表性的属性来刻画江西电信家庭客户的特征。本文对数据挖掘中数据预处理进行了详尽的分析,比较当前学术界中存在几种数据预处理步骤,并将本文的数据预处理步骤界定为:数据清理、数据集成、数据转换、数据规约,介绍了数据预处理每个步骤可以运用的理论和原理。本文的整体思路是首先对领域专家给出的23个属性进行聚类分析,以此作为经过预处理后的数据的聚类能力的评价标准,在此思路下,本文首先对江西电信数据进行了数据补全,主要运用分析方法分析缺失数据产生的原因并对缺失数据进行针对性补全。为了得到更好的挖掘结果,本文利用SAS清理了江西电信数据中的异常点。由于云理论的亦此亦彼性,本文运用云理论的该特性对江西电信数据进行了离散,通过与其它离散算法比较,发现运用云理论进行离散取得了比较好的效果。本文对冗余属性来源进行了分析,并引入粗糙集理论中的属性重要度来作为属性选择的依据,且据此提出了属性选择的算法。在成功进行属性选择后,将进行预处理后的数据和没进行数据预处理的数据的分类能力进行了比较。最后对全文进行了总结,并对进一步的研究进行了展望。
论文目录
摘要ABSTRACT第1章 绪论1.1 选题背景1.2 研究目的与意义1.3 研究思路与研究内容1.4 技术路线1.5 本章小结第2章 文献综述2.1 聚类分析在电信企业应用情况2.2 数据预处理研究现状2.2.1 数据预处理有关问题界定2.2.2 数据清理研究现状2.2.3 数据规约研究现状2.2.4 数据集成2.2.5 数据转换2.2.6 目前研究存在的问题2.3 粗糙集研究现状2.4 云理论研究现状2.5 本章小结第3章 数据预处理基本理论与方法3.1 数据清理3.1.1 遗漏数据处理3.1.2 噪声数据处理3.1.3 不一致数据的处理3.1.4 重复记录的清理3.2 数据集成3.3 数据转换3.4 数据规约3.5 本章小结第4章 数据补全和异常点检测4.1 数据补全4.2 江西电信数据抽取4.2.1 聚类分析指标体系初步选取4.2.2 数据抽样4.3 江西电信数据补全4.4 异常点处理4.5 江西电信异常数据处理4.6 本章小结第5章 数据离散化5.1 云理论5.1.1 云理论的提出5.1.2 云理论的基本概念5.1.3 云的数字特征5.1.4 云模型5.1.5 云发生器5.2 峰值云变换模型5.3 概念泛化5.4 江西电信数据离散化5.5 本章小结第6章 粗糙集理论属性选择6.1 粗糙集基本理论6.1.1 知识与知识库6.1.2 不精确范畴,近似与粗糙集6.2 知识约简6.3 属性冗余的来源6.3.1 不相关属性6.3.2 函数依赖和知识依赖6.4 属性重要性计算6.5 属性约简6.6 江西电信数据属性选择6.7 本章小结第7章 研究总结与展望7.1 全文总结7.2 展望致谢参考文献个人简历 在读期间发表的学术论文与研究成果
相关论文文献
标签:粗糙集论文; 云理论论文; 数据预处理论文; 数据挖掘论文;
基于云理论与粗糙集的电信家庭客户聚类分析预处理研究 ——以江西电信数据为例
下载Doc文档