数据流系综分类算法研究

数据流系综分类算法研究

论文摘要

数据挖掘是一种从海量数据中发现有用信息的技术,目前已被广泛应用于金融、电信、网络、气象等诸多领域。分类作为数据挖掘的重要组成部分,引起了众多学者的广泛关注,并取得了一系列杰出的成果。但近年来由于数据流应用的日益广泛,其快速到达、迅速变化、海量、潜在无限的特点,使得原来针对静态数据库的分类算法越来越不能适应数据流的现实。大量的研究工作表明,分类器系综通过训练多个分类器系综表决,从根本上增强分类算法的抗噪和抗概念漂移能力,大大提升分类精度。但由于数据流处理的特殊性,导致传统系综算法在效率和计算开销上制约了分类器的性能。针对这一问题,本文分别从串行优化和并行优化两方面分别提出按需系综的数据流分类算法以及基于云计算的数据流系综分类算法。按需系综数据流分类算法针对传统分类器系综数据流分类算法高内存消耗和计算开销的问题,按需动态调整分类器的个数和权值,从而达到既保持较高分类精度,又降低开销的目的。通过对两种人工数据流的实验分析,算法对隐含概念漂移的数据流的分类效率和精度都有一定的提升,同时内存开销也有较大幅度的降低。云计算为海量数据的分析和贮存提供了经济、快速的解决方案,对于海量数据挖掘中最具挑战的领域—云计算数据流挖掘算法的研究,具有极高的理论参考价值和广阔的实际应用前景。通过综合分析数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率。实验结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法。综上所述,本文针对数据流的特殊情况设计的优化系综算法,在保持系综分类高精度的同时提升了算法的分类效率,降低了计算开销,使得算法更具实用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 数据流系综分类的研究背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 数据流处理框架
  • 1.2.2 数据流分类模型
  • 1.2.3 数据流系综分类模型
  • 1.3 本文主要研究内容以及创新点
  • 1.4 论文组织结构
  • 第二章 数据流分类挖掘基本理论
  • 2.1 数据挖掘的基本概念
  • 2.2 数据分类
  • 2.2.1 分类挖掘基本概念
  • 2.2.2 分类算法类型
  • 2.3 数据流基本概念和处理方法
  • 2.3.1 数据流的基本概念
  • 2.3.2 数据流基本处理方法
  • 2.4 数据流分类挖掘算法
  • 2.4.1 决策树
  • 2.4.2 微聚类
  • 2.4.3 最近邻ANNCAD
  • 2.5 数据流分类算法评价以及发展方向
  • 2.6 本章小结
  • 第三章 按需系综的数据流分类挖掘算法研究
  • 3.1 系综分类相关概念
  • 3.2 传统系综分类算法研究
  • 3.2.1 静态数据系综算法
  • 3.2.2 基于动态权重的数据流系综分类算法
  • 3.3 按需系综
  • 3.3.1 错比加速度定义
  • 3.3.2 按需系综策略
  • 3.3.3 基分类器选择
  • 3.3.4 算法描述
  • 3.4 实验验证及分析结果
  • 3.4.1 数据流的选取
  • 3.4.2 内存占用测试
  • 3.4.3 计算开销测试
  • 3.4.4 分类精度测试
  • 3.5 本章小结
  • 第四章 基于云计算的数据流系综分类算法研究
  • 4.1 云计算背景介绍
  • 4.2 云计算相关理论
  • 4.2.1 云计算定义
  • 4.2.2 Hadoop云平台框架
  • 4.2.3 Hadoop任务调度步骤
  • 4.2.4 Hadoop任务调度分类
  • 4.3 MAPREDUCE云计算数据流系综分类算法描述
  • 4.4 算法时间复杂度分析
  • 4.5 实验结果以及分析
  • 4.5.1 实验环境以及数据集
  • 4.5.2 实验结果分析
  • 4.6 本章小结
  • 第五章 总结与展望
  • 5.1 本文工作总结
  • 5.2 进一步工作
  • 参考文献
  • 致谢
  • 攻读硕士学位期间科研项目目录
  • 攻读硕士学位期间发表的学术论文目录
  • 相关论文文献

    • [1].基于抽样学习的开放量子系综时间最优控制[J]. 中国科学技术大学学报 2019(10)
    • [2].系综[J]. 印染 2012(18)
    • [3].量子系综对的量子关联性[J]. 陕西师范大学学报(自然科学版) 2015(01)
    • [4].基于云计算的数据流系综分类算法研究[J]. 微电子学与计算机 2012(02)
    • [5].身份符号学理寻绎与和谐符号系综建构——从政治哲学的视域解读[J]. 理论界 2011(01)
    • [6].等离子体湍流扰动诊断数据的系综平均与湍流物理概念的一致性问题[J]. 核聚变与等离子体物理 2008(02)
    • [7].按需系综的数据流分类算法研究[J]. 计算机工程 2012(05)
    • [8].各种系综可以不等价[J]. 大学物理 2019(07)
    • [9].系综理论及从基本热力学量的表达式看三则系综之间关系[J]. 科技经济导刊 2016(19)
    • [10].非平衡和平衡统计系综的一个统一框架[J]. 复杂系统与复杂性科学 2010(04)
    • [11].非平衡统计系综和量子强关联网络[J]. 复杂系统与复杂性科学 2009(01)
    • [12].从涨落的角度讨论三种系综分布之间的关系[J]. 哈尔滨师范大学自然科学学报 2014(05)
    • [13].蛋白质系统突变分析及系综优化算法的计算机实现[J]. 上海大学学报(自然科学版) 2008(04)
    • [14].系综平均意义下的Hellmann-Feynman定理[J]. 大学物理 2018(11)
    • [15].金刚石NV~-色心系综自旋相干动力学解耦[J]. 量子光学学报 2019(02)
    • [16].完全开放系统的幂律分布及其适用对象[J]. 复杂系统与复杂性科学 2019(03)
    • [17].基于原子系综和线性光学器件的量子中继[J]. 宁波大学学报(理工版) 2017(04)
    • [18].时间对称的量子理论[J]. 物理 2010(11)
    • [19].固体热容的统计探讨[J]. 山东教育学院学报 2008(02)
    • [20].冷原子系综中偏振关联光子对的产生和测量[J]. 量子光学学报 2016(01)
    • [21].基于系综金刚石氮空位的色心量子调控系统设计[J]. 科学技术与工程 2018(36)
    • [22].有关随机矩阵领域最新研究动态与进展的综述报告[J]. 数学理论与应用 2011(03)
    • [23].基于相对熵的蛋白质折叠研究方法的改进[J]. 中国科学(G辑:物理学 力学 天文学) 2009(04)
    • [24].颗粒体系中力分布的标量力网系综模型[J]. 物理学报 2009(01)
    • [25].Rb原子系综中读光跃迁频率对光与原子纠缠影响[J]. 量子光学学报 2020(02)
    • [26].NPT系综下应用ABEEM-7P水分子模型的动力学模拟[J]. 辽宁师范大学学报(自然科学版) 2015(02)
    • [27].基于固态自旋系综NV色心微波调制的磁传感技术研究(英文)[J]. Journal of Measurement Science and Instrumentation 2018(02)
    • [28].计算物理教学中系综和电子波函数概念的引入[J]. 中国西部科技 2014(06)
    • [29].概述经典分子动力学模拟计算[J]. 热处理技术与装备 2012(01)
    • [30].原子系综双模压缩叠加相干态的制备和性质[J]. 湖南师范大学自然科学学报 2010(01)

    标签:;  ;  ;  ;  ;  

    数据流系综分类算法研究
    下载Doc文档

    猜你喜欢