沙尘暴资料的数据挖掘算法分析及系统实现

沙尘暴资料的数据挖掘算法分析及系统实现

论文摘要

本文介绍了国内外沙尘暴研究现状和气象数据挖掘现状,及数据挖掘的过程模型、标准和规范、数据挖掘的技术、数据挖掘步骤等基础知识,并对Microsoft的数据挖掘规范OLE DB for DM和数据挖掘扩展(DMX)做了简要介绍。国内气象数据挖掘的研究尚处于起步阶段。气象数据挖掘具有较大的挑战性。其原因有二:其一,气象数据是一种复杂数据,即是空间数据,又是时间序列数据,且其存储格式多种多样;其二,气象数据挖掘任务比较复杂,专用挖掘算法比较少。通过分析用户的需求,首先确定了沙尘暴数据挖掘的任务,并提出解决该任务的数据挖掘算法。从西北241个站46年的气象观测资料中选择与任务相关的数据,并对数据进行清理转换后建立数据仓库。开发了可视化的交互式数据挖掘界面,使数据清理转换、数据挖掘、模式评估、挖掘结果显示等都在一个可视、交互的平台下进行。本文尝试将常用的挖掘算法如关联分析、回归分析、聚类、空间分析等应用于气象数据挖掘,得到了一些有用的知识。本文为了解决气象领域问题,采用简化的DBSCAN方法实现了“圆形区域连续算法”和“简单时间连续算法”;并针对基于密度的聚类算法存在漏簇的不足,提出了ε-圆扫描法、矩形扫描法等算法,这两个算法可以准确地在样本区域内发现是否存在满足条件的高密度连续区域;本文提出了一个基于约束的具有簇评价功能的连阴雨算法(Continuous RainFall & Overcast,CRFO),该算法采用分层聚类的思路实现,可以有效地解决气象领域中时间连续问题;本文也提出可折叠任意时段周期值抽取算法,该算法解决了OLAP钻取、简单SOL汇聚无法实现有折叠资料的汇聚功能。利用沙尘暴数据挖掘系统,发现了一些中国西北地区沙尘暴很重要的特点,这些知识可以帮助气象科研人员或气象预报员研究或预报沙尘暴的起源、移动、出现时间、出现次数等,这说明数据挖掘技术在气象数据挖掘方面的应用是有效果的。利用数据挖掘技术对气象数据实施挖掘是可行的,但要在气象领域广泛使用,还需要针对气象数据和气象工作的特点,提出解决气象问题的专有算法,并要充分利用领域知识对模式作评估,还要解决气象数据挖掘效率低的问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 沙尘暴的定义
  • 1.1.1 沙尘暴的定义
  • 1.1.2 区域沙尘暴
  • 1.1.3 沙尘暴天气过程
  • 1.2 沙尘暴国内外研究现状
  • 1.3 数据挖掘在气象中的应用
  • 1.3.1 国外气象数据挖掘研究清况
  • 1.3.2 国外气象数据挖掘应用情况
  • 1.3.3 国内气象数据挖掘研究情况
  • 1.3.4 国内气象数据挖掘应用情况
  • 1.4 研究的意义
  • 第二章 数据挖掘概述
  • 2.1 数据挖掘的定义
  • 2.2 数据挖掘所发现的知识
  • 2.3 数据挖掘过程的5A模型
  • 2.3.1 Assess(准确、彻底的评价任务的需求及数据)
  • 2.3.2 Access(方便、快速的存取任务所涉及的数据)
  • 2.3.3 Analyze(适当、完备的分析技术和工具)
  • 2.3.4 Act(推荐性、有说服力的原型演示)
  • 2.3.5 Automate(易于使用、方便的自动化软件)
  • 2.4 数据挖掘方法
  • 2.4.1 数据挖掘信息论的方法
  • 2.4.2 Rough集方法
  • 2.4.3 神经网络方法
  • 2.4.4 遗传算法
  • 2.4.5 模糊集方法
  • 2.4.5 统计学方法
  • 2.5 数据挖掘与数据仓库的关系
  • 2.6 数据挖掘的步骤
  • 2.7 数据挖掘系统的主要组成
  • 2.8 基于数据库和知识库的综合知识发现
  • 2.9 主要数据挖掘产品
  • 2.10 数据挖掘标准及OLE DB FOR DM规范简介
  • 2.10.1 数据挖掘标准
  • 2.10.2 OLE DB for DM规范简介
  • 第三章 沙尘暴数据挖掘任务及算法分析
  • 3.1 聚集
  • 3.2 空间连续分析(空间聚类)
  • 3.2.1 圆形区域连续算法——简化的基于密度的聚类算法
  • 3.2.2 ε-圆扫描法
  • 3.2.3 矩形扫描法
  • 3.2.4 三种空间连续算法的比较
  • 3.3 时间连续
  • 3.3.1 基于DBSCAN的简单时间连续
  • 3.3.2 连阴雨算法(Continuous RainFall&Overcast,CRFO)
  • 3.4 时空连续分析及其算法
  • 3.5 分布概率
  • 3.6 关联分析
  • 3.6.1 沙尘暴与大风之间的关联分析
  • 3.6.2 不同台站沙尘暴事件的关联分析
  • 3.7 可折叠任意时段周期值抽取
  • 3.8 多元回归预测模型
  • 3.9 历史同期值排名
  • 第四章 沙尘暴数据挖掘平台设计
  • 4.1 数据清理和转换
  • 4.1.1 从气象专用格式化文件中提取、转换沙尘暴资料
  • 4.1.2 能见度处理
  • 4.1.3 观测时间处理
  • 4.1.4 灾情资料格式化处理
  • 4.1.5 文献资料格式化处理
  • 4.1.6 气象台站任意两点之间距离矩阵计算
  • 4.2 沙尘暴数据库设计
  • 4.2.1 台站信息表
  • 4.2.2 沙尘天气个列表
  • 4.2.3 沙尘暴文献表
  • 4.2.4 沙尘暴灾情表
  • 4.2.5 气象要素表
  • 4.2.6 天气图表
  • 4.2.7 气象台站间距离矩阵度
  • 4.3 数据挖掘用户界面设计
  • 4.3.1 资料追加及转换
  • 4.3.2 数据挖掘男面
  • 4.3.3 灾情及文献查阅
  • 4.3.4 图片显示
  • 4.4 挖掘知识表示系统设计
  • 4.4.1 表格显示
  • 4.4.2 图表显示
  • 第五章 沙尘暴数据挖掘结果分析
  • 5.1 西北沙尘暴的分布
  • 5.2 沙尘暴的年际特点
  • 5.3 沙尘暴的月分布特点
  • 5.4 沙尘暴的日分布特点
  • 5.4.1 沙尘暴出现概率的时间分布特性
  • 5.4.2 最多出现时间
  • 5.4.3 沙尘暴最多出现时间及出现时间的集中程度
  • 5.5 沙尘暴与大风的关系
  • 5.6 上游台站出现沙尘暴时,下游站出现沙尘暴的概率
  • 第六章 结论与展望
  • 6.1 总结
  • 6.2 展望
  • 6.2.1 数据挖掘将在气象领域得到广泛应用
  • 6.2.2 利用数据网格技术
  • 6.2.3 研究适用于气象数据的专用数据挖掘算法。
  • 6.2.4 气象数据挖掘的研究方向
  • 参考文献
  • 附录:就读期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    沙尘暴资料的数据挖掘算法分析及系统实现
    下载Doc文档

    猜你喜欢