基于地域因素的分布式决策树算法与其网格模型研究

基于地域因素的分布式决策树算法与其网格模型研究

论文摘要

随着信息技术的发展,经济全球化进程的加快,连锁商业企业纷纷崛起,大量分布的连锁分店、配送中心与总店间通过网络互连,形成了分布型的商业共享数据环境。这种环境下,商业数据库中的数据存储形成了以下几个重要的特点:(1)每天都会有新的经营数据存入,数据量越来越大;(2)数据分布在各分店内,难以集中到统一的数据中心;(3)各区域数据特性不一致,具有分布分析的价值;(4)数据存储形式不一致,数据异构性与差异性大。本文针对这些数据存储的特点分析了传统的各种决策树算法,包括集中式决策树算法(如ID3、C4.5算法等)和分布式决策树算法(如SPRINT、SLIQ等),这些算法不是针对连锁商业企业的应用环境而研究的,难以满足日益复杂的连锁分布数据挖掘。本文深入讨论了面向连锁商业企业内部的分布式数据库之间存在的联系,认为不同地域之间由于生活习惯、经济水平、人口因素等原因的存在使得不同地域之间的消费习惯不同。因此,不同地域之间存储的消费数据会存在不同的特征。因此,本文提出了基于地域因素的分布式决策树ZDT算法,该算法针对连锁商业企业的地域分布特点,在J4.8算法的基础上加入地域因素,并将地域因素作为首要的分支属性,然后再以信息增益率为其它属性的选择标准,最后生成一棵基于地域因素的决策树,实现面向连锁商业企业的分布式的决策树挖掘。文中引入了地域因子和决策树特征差异的概念,并给出了决策树特征差异算法,通过地域分支算法获得决策树的地域分支头部,通过决策树特征差异率计算不同地域之间生成的决策树的特征相同程度。最后,对特征差异率超过指定阀值的决策树分支进行合并,由此避免生成的决策树过于庞大。本文在ZDT算法的实现过程中利用网格技术,实现基于网格技术的ZDM系统,即GZDM系统。GZDM利用多种优秀开源的工具,实现ZDT算法的分布式计算;GZDM实现BCS(Browse-Client-Server)结构,该结构保证用户可以通过浏览器对网格资源进行操作。第五章详细分析了GZDM的概念模型、基于VO-BUS的拓扑结构、ZDT算法在GZDM中的执行流程。最后通过实验测试GZDM与ZDT算法的可行性。经过实验的测试与分析,可以知道GZDM模型与ZDT算法在一定程度上是切实可行的,为连锁商业企业的分布式商业数据挖掘的应用提供了可操作的理论与实践模型。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的背景和意义
  • 1.2 国内外研究现状
  • 1.3 主要工作及创新点
  • 1.4 论文章节安排
  • 第二章 数据挖掘技术的回顾与展望
  • 2.1 数据挖掘技术的基本概念
  • 2.2 决策树算法
  • 2.3 分布式数据挖掘
  • 2.3.1 分布环境下数据挖掘研究现状
  • 2.3.2 分布式挖掘系统的特点
  • 2.3.3 分布环境下数据挖掘体系
  • 2.4 本章小结
  • 第三章 网格技术的回顾与分析
  • 3.1 网格技术概述
  • 3.1.1 开放网格服务架构(OGSA)
  • 3.1.2 网格计算
  • 3.2 Globus Toolkit 4.0:OGMA的实现
  • 3.2.1 GT发展情况
  • 3.2.2 GT4.0功能结构
  • 3.2.3 GT4.0主要组件介绍
  • 3.3 数据挖掘应用中网格技术的研究
  • 3.4 小结
  • 第四章 基于地域因素的分布式决策树算法ZDT研究
  • 4.1 面向连锁商业企业的分布式数据挖掘模型
  • 4.2 ZDT构思与基本概念
  • 4.2.1 算法形成思想
  • 4.2.2 地域因子与特征差异率
  • 4.2.3 信息论基本定义
  • 4.3 基于地域因素的决策树算法ZDT
  • 4.3.1 地域分支算法ADA
  • 4.3.2 嵌入J4.8算法
  • k算法'>4.3.3 RTSk算法
  • 4.3.4 特征差异分析算法SDA
  • 4.3.5 ZDT主算法
  • 4.4 本章小结
  • 第五章 基于网格技术的ZDM模型研究与实现
  • 5.1 GZDM模型概述
  • 5.2 GZDM模型结构
  • 5.2.1 GZDM概念模型
  • 5.2.2 核心GZDM服务
  • 5.2.3 拓扑结构
  • 5.3 GZDM系统实现
  • 5.3.1 ZDT算法执行流程
  • 5.3.2 Service层实现
  • 5.3.3 CP层实现
  • 5.3.4 WEB功能层实现
  • 5.4 本章小结
  • 第六章 运行与分析
  • 6.1 开发与运行环境
  • 6.1.1 基本软件及版本
  • 6.1.2 安装步骤与环境变量设置
  • 6.2 实验运行
  • 6.2.1 实验设置
  • 6.2.2 构建各级分支
  • 6.2.3 生成总树
  • 6.3 结果分析
  • 6.3.1 参数对特征差异的影响
  • 6.3.2 参数对准确率的影响
  • 6.3.3 ZDT和J4.8运行结果比较
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 附录1 攻读硕士论文期间发表的主要相关论著
  • 附录2 攻读硕士论文期间参加的课题和项目
  • 致谢
  • 相关论文文献

    • [1].决策树算法在塑料分类中的应用[J]. 塑料科技 2020(06)
    • [2].采用信息散布指数的改进决策树算法[J]. 数学的实践与认识 2020(14)
    • [3].面向信用评级的有决策树算法研究[J]. 齐齐哈尔大学学报(自然科学版) 2020(04)
    • [4].基于决策树算法的心脏病发病预警模型研究[J]. 电脑知识与技术 2020(19)
    • [5].决策树算法的研究综述[J]. 现代营销(下旬刊) 2017(01)
    • [6].数据挖掘中决策树算法的应用研究[J]. 电脑编程技巧与维护 2017(14)
    • [7].面向大数据分析的决策树算法[J]. 信息系统工程 2017(07)
    • [8].基于决策树算法的爬虫识别技术[J]. 软件 2017(07)
    • [9].面向大数据分析的决策树算法[J]. 计算机科学 2016(S1)
    • [10].一种面向大数据分析的快速并行决策树算法[J]. 云南大学学报(自然科学版) 2020(02)
    • [11].决策树算法在健康监测设备自动连接中的应用[J]. 自动化与仪表 2020(06)
    • [12].基于分布式运算的决策树算法的研究与实现[J]. 南通职业大学学报 2017(01)
    • [13].数据挖掘中决策树算法的研究[J]. 世界科技研究与发展 2009(04)
    • [14].一种改进的决策树算法研究[J]. 电脑知识与技术 2015(11)
    • [15].决策树算法综述[J]. 软件导刊 2015(11)
    • [16].一种新的基于粗糙集的概念模糊化决策树算法[J]. 新课程学习(中) 2014(09)
    • [17].决策树算法在人才招聘简历筛选中的应用[J]. 企业改革与管理 2020(17)
    • [18].决策树算法及其改进[J]. 科技创新导报 2014(12)
    • [19].逆向快速决策树算法概要[J]. 计算机应用研究 2011(12)
    • [20].基于决策树算法的疾病诊断分析[J]. 中国卫生信息管理杂志 2011(05)
    • [21].数据挖掘中的决策树算法比较研究[J]. 中国科技信息 2010(02)
    • [22].决策树算法在物流仓储中的研究与应用[J]. 微计算机信息 2010(30)
    • [23].决策树算法分析及其在实际应用中的改进[J]. 铜陵学院学报 2010(06)
    • [24].决策树算法的比较与应用研究[J]. 华北电力技术 2017(06)
    • [25].决策树算法研究[J]. 课程教育研究 2018(48)
    • [26].智能模糊决策树算法在英语机器翻译中的应用[J]. 计算机测量与控制 2020(10)
    • [27].改进决策树算法的应用研究[J]. 电子科技 2010(09)
    • [28].改进的多关系决策树算法[J]. 计算机应用研究 2009(12)
    • [29].浅谈数据挖掘中的决策树算法[J]. 福建电脑 2008(11)
    • [30].基于决策树算法的水位观测干扰识别模型[J]. 国际地震动态 2019(11)

    标签:;  ;  ;  

    基于地域因素的分布式决策树算法与其网格模型研究
    下载Doc文档

    猜你喜欢