并行数据挖掘理论研究与应用

并行数据挖掘理论研究与应用

论文摘要

通过数据挖掘进行知识发现是对大型数据库或数据仓库的一种分析,用于发现隐藏在数据仓库中的关系和知识,这些知识会影响管理者的决策和实施。数据仓库上的数据挖掘能够从利用机群并行计算中获利,从而提高其性能和数据分析质量。实际上,挖掘大量数据集会消耗巨大的计算资源,因为在传统的计算机上,对海量数据集进行数据挖掘得到结果是要花费非常多的时间的。一种减少响应时间的方法就是采样,但是在一些情况下,减少训练数据会导致计算模型不准确,甚至不可用。另外一种方法就是并行计算了。高性能计算机和并行数据挖掘结合在一起,就能为挖掘巨型数据集提供一个最佳方案,更快的处理速度意味着用户能够试验更多的模型以更好地理解复杂数据。高性能计算让用户能够分析更多的数据变成现实。这样并行数据挖掘为数据分析和知识提取发挥了越来越重要的作用,在诸如商业和工业领域的数据提取和决策支持中得到应用。虽然目前已提出过一些并行数据挖掘算法,但是存在着通信量过大、可扩展性差、数据分布不合理等问题,出现算法性能随数据量递增效率下降的情况,具有理论或应用局限性。因此本文研究和提出具有新颖的适应性强的高效并行挖掘算法并将其用于商业和工业领域,具有其创新性和必要性。本文在研究并行数据挖掘算法前,搭建了并行计算环境、设计了大型商业数据仓库和使用了工业生产数据库作为研究和应用平台,在构建的数据仓库上利用PC机群进行并行数据挖掘。本文分析了能用于数据挖掘技术的几种不同并行形式,阐述了如何用机群执行并行数据挖掘,提出了几种可用于数据挖掘算法的并行化方法,这些算法有:(1)并行关联规则。本文在比较了当前几种并行关联规则挖掘算法的基础上,为了解决这些算法在候选集和执行时间方面存在的问题,结合关联规则的性质定理,提出了一种快速并行关联规则算法FPARM,改进了全局和局部剪枝策略以及候选集的约简方法。在无共享的工作站机群上进行性能测试,采用改进并行算法的执行效率提高了,达到了算法优化的目的,并将该算法用于商品之间的购物序列模式分析。在实际的关联规则挖掘应用中,多层概念关联规则是用户经常考虑的问题,本文在分析了单数据库多层关联规则算法SMAM算法的基础上,为了提高算法的效率,提出了两种并行多层关联规则算法PMAM-L和PMAM-LG。试验证明PMAM算法是有效的。(2)并行聚类。本文提出了基于并行退火粒子群优化的并行聚类算法,采用了

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题的提出
  • 1.2 课题研究的目的和意义
  • 1.3 国内外研究现状与存在的问题
  • 1.4 论文主要内容
  • 2 并行机群环境的构建
  • 2.1 并行计算机介绍
  • 2.2 并行软件介绍
  • 2.3 工作站机群的实现
  • 2.4 并行机群性能分析指标
  • 2.5 本章小结
  • 3 大型商场连锁店数据仓库
  • 3.1 重百数据仓库系统CBDW 总体结构
  • 3.2 数据仓库的设计
  • 3.3 数据仓库的统计分析及应用
  • 3.4 本章小结
  • 4 并行关联规则挖掘研究与应用
  • 4.1 并行关联规则相关定义和定理
  • 4.2 FPARM 算法设计
  • 4.3 FPARM 算法分析
  • 4.4 实验与分析
  • 4.5 并行关联规则在购物序列模式分析中的应用
  • 4.6 并行多层关联规则的挖掘算法研究
  • 4.7 本章小结
  • 5 并行退火粒子群聚类算法研究与应用
  • 5.1 粒子群优化算法
  • 5.2 粒子群优化算法的缺陷与改进
  • 5.3 并行退火粒子群优化算法研究与设计
  • 5.4 并行退火粒子群聚类算法研究
  • 5.5 并行退火粒子群聚类在客户购物时段分析中的应用
  • 5.6 本章小结
  • 6 并行核回归径向基网络研究与应用
  • 6.1 核回归径向基神经网络优化设计
  • 6.2 并行核回归径向基神经网络研究
  • 6.3 并行核回归径向基网络在冶金生产决策中的应用
  • 6.4 本章小结
  • 7 全文总结
  • 7.1 论文的主要结论和创新点
  • 7.2 论文存在的不足和继续研究的方向
  • 致谢
  • 参考文献
  • 附录
  • 1. 作者在攻读博士学位期间发表的论文目录
  • 2. 作者在攻读博士学位期间参加的科研项目
  • 独创性声明
  • 学位论文版权使用授权书
  • 相关论文文献

    • [1].数据仓库技术在高速公路数据仓库系统中的应用[J]. 吉林交通科技 2011(01)
    • [2].基于微软数据仓库的农业科技支撑数据应用分析与展望[J]. 农业展望 2019(12)
    • [3].计算机数据仓库的构建原理及发展趋势[J]. 延边教育学院学报 2018(06)
    • [4].七大云计算数据仓库[J]. 计算机与网络 2019(20)
    • [5].基于网络数据仓库及OLAP技术的决策支持系统设计[J]. 网络安全技术与应用 2015(11)
    • [6].大数据环境下动态数据仓库的应用研究[J]. 电子技术与软件工程 2015(02)
    • [7].维数据仓库及其在复杂数据建模中的应用研究[J]. 通讯世界 2015(03)
    • [8].使用数据清洗技术进行中医药数据仓库质量控制研究[J]. 中国数字医学 2012(04)
    • [9].数据仓库构建之行为模式分析[J]. 信息系统学报 2013(01)
    • [10].采用云计算技术构建大型数据仓库平台的解析[J]. 计算机光盘软件与应用 2013(22)
    • [11].再谈数据仓库[J]. 软件和信息服务 2013(02)
    • [12].数据仓库突破者[J]. 软件和信息服务 2010(04)
    • [13].基于SQL Server 2005构建数据仓库的探索[J]. 新课程(教育学术) 2012(01)
    • [14].重塑传统,打造第四代数据仓库[J]. 软件和集成电路 2019(01)
    • [15].基于数据仓库的数据血缘管理研究[J]. 轻工科技 2019(04)
    • [16].数据仓库在区域健康管理大数据平台构建中的应用[J]. 中国卫生信息管理杂志 2019(03)
    • [17].水质监测实验室信息管理系统中数据仓库的运用[J]. 信息系统工程 2019(07)
    • [18].测量数据仓库的概念研究[J]. 遥测遥控 2018(01)
    • [19].生态应急决策支持数据仓库战略设计与实施研究[J]. 镇江高专学报 2018(01)
    • [20].云环境下的分层数据仓库架构及其服务研究[J]. 现代信息科技 2018(01)
    • [21].医院信息化建设中数据仓库技术的应用[J]. 信息与电脑(理论版) 2018(22)
    • [22].基于大数据平台构建数据仓库的研究与实践[J]. 中国金融电脑 2017(05)
    • [23].面向大型装备状态分析的分布式实时数据仓库构建技术[J]. 计算机集成制造系统 2017(10)
    • [24].基于数据仓库和数据采集的高校教学管理决策支持系统研究[J]. 佳木斯职业学院学报 2015(12)
    • [25].农信数据仓库的建设路径[J]. 中国农村金融 2015(02)
    • [26].数据仓库与数据技术的研究与应用[J]. 信息与电脑(理论版) 2014(24)
    • [27].数据仓库可以帮助医疗保健机构达到有效使用[J]. 中国数字医学 2011(07)
    • [28].关于数据库技术与数据仓库的思考[J]. 数字技术与应用 2015(09)
    • [29].浅析地质数据仓库的特点及数据组织[J]. 科学中国人 2016(17)
    • [30].浅析数据仓库与数据挖掘的应用[J]. 内江科技 2014(01)

    标签:;  ;  ;  ;  ;  ;  

    并行数据挖掘理论研究与应用
    下载Doc文档

    猜你喜欢