基于经验模态分解及动态数据挖掘的商务数据分析方法研究

基于经验模态分解及动态数据挖掘的商务数据分析方法研究

论文摘要

随着计算机技术的发展和普及,企业生成、收集、存储及处理数据的能力大大提高,数据量与日俱增。大量丰富的数据使得传统的数据分析方式陷入了困境,数据挖掘技术应运而生,它是一个新兴的边缘学科,涉及机器学习、模式识别、数据库、统计、人工智能等多门学科。商务数据挖掘是数据挖掘中的一个重要研究方面,目前关于商务数据中的静态数据分析模型已经慢慢变得成熟,但是经验模态分解算法及动态数据挖掘在商务数据分析中的应用研究,仍处在起步阶段。经验模态分解(Empirical Mode Decomposition,EMD)被认为是不同于以傅里叶变换为基础的线性和稳态谱分析方法的一种时频分析方法。本文以基于经验模态分解方法及动态数据挖掘的商务数据分析为目标,研究了经验模态分解方法的基本原理和算法思想;针对其端点效应等不足,提出了新的数据延拓技术;针对EMD算法的精度和速度上的不足,提出了相应的改进措施;并研究了EMD分解、构造性神经网络覆盖算法以及K-means聚类等方法各自独特的特点,以及这些方法与其他理论的结合点,为动态数据挖掘中遇到的一些问题提供新的解决方案,并把它们应用在商务数据的分析中。主要工作包括:1.论述了本论文的研究背景;综述了时频分析方法的发展:介绍了EMD方法及其国内外研究现状,以及动态数据挖掘的研究内容;最后,阐述了本文的研究内容、总体框架和创新之处。2.介绍了基于EMD时频分析方法的一些基本概念;阐述了基于EMD的希尔伯特变换的基本原理和算法;在此基础上,用基于EMD的时频分析方法对仿真信号进行了分析验证,结果表明把该方法引入非线性非平稳序列的分析是理想的。3.介绍了EMD算法端点效应的机理;然后系统地研究了基于神经网络预测的数据序列延拓技术和镜像延拓技术的特点及性能:最后,对各种延拓技术进行了比较研究,分析了各种延拓技术的优缺点,并提出了基于多项式拟合的数据延拓技术。4.从提高速度与精度两方面着手,对EMD算法进行了系统研究。首先研究埃尔米特Hermite插值和三次样条插值哪个更适合获取序列的上、下包络线,结果表明三次样条插值效果较好;接着研究利用三次样条插值获得序列数据包络线的效果,结果表明该方法是理想的;然后阐述了样条插值获得包络线存在的问题,以及已有的解决方法——基于高次(高于三次)样条插值的EMD算法并考察了效果,表明高次样条插值能提高EMD算法精度,但耗时增加;最后根据EMD算法的特点,提出了基于极值点均值的EMD算法,并对该算法的效果进行了系统地研究,结果表明该算法优于原有的EMD方法。5.研究了动态数据挖掘中的时间序列相似性匹配问题。首先利用交叉覆盖算法对序列进行分类,进而完成序列匹配;直接利用覆盖算法进行匹配虽然是有效的,可是有时存在两个序列趋势是相似的,但由于某几维相差较大而没有被归为一类,增加了“拒识点”的个数。为了提高匹配的准确性,提出了基于EMD和交叉覆盖算法的序列匹配算法,实验证明该方法可以减少“拒识点”,提高匹配算法的准确度。6.研究了动态数据挖掘中的聚类问题。由于参加聚类的序列往往维度较高,所以首先研究了数据维度的约简问题。本章提出了基于EMD和自底向上(Bottom-Up)分段算法的维度约简方法,并把该维度约简方法和K-means算法相结合,有效完成了数据序列的聚类。7.结合国家高技术研究发展计划(863计划)专题课题(2007AA04Z116)——“面向制造业售后服务的商务智能关键技术研究”,把第五章提出的基于EMD和交叉覆盖算法的序列匹配算法用于个人信用的评估,即把客户的信用历史数据序列利用EMD方法提取趋势后,再利用交叉覆盖算法进行分类,通过对历史上每个类别的若干样本进行学习,从己知的数据中找出违约及不违约者的特征,从而总结出分类的规则,用于测量借款人的违约风险,为消费信贷决策提供依据;把第六章提出的聚类算法用于超市顾客行为的聚类,通过超市的交易数据对顾客进行聚类,将顾客划分到不同的簇(或称市场分段),并用市场分段中购买率较高的商品作为该分段的描述,实现对每个市场分段分别地进行促销和广告。

论文目录

  • 摘要
  • ABSTRACT
  • 致谢
  • 目录
  • 插图清单
  • 表格清单
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 时频分析方法回顾
  • 1.2.1 Fourier变换及 ZFFT变换
  • 1.2.2 短时傅立叶变换(STFT)
  • 1.2.3 小波变换
  • 1.2.4 Wigner-Ville分布
  • 1.3 经验模态分解方法的提出和研究现状
  • 1.4 动态数据挖掘
  • 1.4.1 相似序列的查询问题
  • 1.4.2 时间序列中的知识发现
  • 1.4.3 时间序列的符号化
  • 1.5 本文工作内容与组织结构
  • 第二章 基于 EMD的时频分析理论和算法
  • 2.1 引言
  • 2.2 EMD方法的基本理论和算法
  • 2.2.1 EMD方法的基本理论
  • 2.2.2 EMD方法的完备性和正交性
  • 2.3 基于 EMD的希尔伯特变换基本理论和算法
  • 2.4 基于 EMD时频分析方法验证
  • 2.5 本章小结
  • 第三章 EMD中的端点问题
  • 3.1 引言
  • 3.2 端点问题的机理和影响
  • 3.3 已有的端点问题解决方法回顾
  • 3.3.1 神经网络延拓算法
  • 3.3.2 镜像延拓算法
  • 3.4 基于多项式拟合的端点问题处理方法
  • 3.4.1 基于多项式拟合的端点问题解决方法
  • 3.4.2 三种算法的比较
  • 3.4.3 结论
  • 3.5 本章小结
  • 第四章 EMD的改进与优化
  • 4.1 引言
  • 4.2 两种形成包络线的插值方法
  • 4.2.1 埃尔米特 Hermite插值
  • 4.2.2 三次样条插值
  • 4.2.3 两种插值的比较
  • 4.3 利用样条插值获取包络线
  • 4.3.1 利用样条插值获取包络线
  • 4.3.2 实验
  • 4.4 基于极值点均值的 EMD算法
  • 4.4.1 利用样条插值获取包络线存在的问题和已有的解决方法
  • 4.4.2 提出的样条插值存在问题的解决方法
  • 4.4.3 实验及结果分析
  • 4.4.4 结论
  • 4.5 本章小结
  • 第五章 动态数据挖掘中的时间序列匹配
  • 5.1 引言
  • 5.2 基于交叉覆盖算法的序列匹配算法
  • 5.2.1 引言
  • 5.2.2 前向神经网络交叉覆盖算法
  • 5.2.3 基于交叉覆盖算法的时间序列模式匹配
  • 5.2.4 实验
  • 5.2.5 结论
  • 5.3 基于 EMD和覆盖算法的序列匹配算法
  • 5.3.1 引言
  • 5.3.2 基于 EMD和覆盖算法的时间序列相似模式匹配算法
  • 5.3.3 实验
  • 5.3.4 结论
  • 5.4 本章小结
  • 第六章 动态数据挖掘中的聚类
  • 6.1 引言
  • 6.2 聚类相关研究
  • 6.3 利用 EMD实现数据维度的约简
  • 6.3.1 常用的时间序列线性分段算法研究
  • 6.3.2 基于 EMD的时间序列维度约简算法
  • 6.4 基于 EMD和 K-means算法的时间序列聚类方法
  • 6.4.1 引言
  • 6.4.2 K-means算法
  • 6.4.3 基于 EMD和 K-means算法的时间序列聚类方法
  • 6.4.4 结论
  • 6.5 本章小结
  • 第七章 基于经验模态分解及动态数据挖掘的商务数据分析
  • 7.1 引言
  • 7.2 基于EMD和交叉覆盖算法的个人信用的评估
  • 7.2.1 个人信用评估的必要性与常用方法
  • 7.2.2 基于 EMD和交叉覆盖算法的个人信用评估
  • 7.3 基于 EMD和 K-means算法的客户行为聚类
  • 7.3.1 交易数据聚类
  • 7.3.2 基于 EMD和 K-means算法的客户行为聚类
  • 7.4 本章小结
  • 第八章 总结与展望
  • 8.1 论文工作的总结
  • 8.2 展望
  • 参考文献
  • 在读期间参加的科研工作和发表论文情况
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于经验模态分解及动态数据挖掘的商务数据分析方法研究
    下载Doc文档

    猜你喜欢