针对时间序列数据的时态关联规则挖掘研究

针对时间序列数据的时态关联规则挖掘研究

论文摘要

自80年代开始,数据库技术得到了广泛的普及和应用。随着数据库容量的膨胀,特别是数据仓库以及Web等新型数据源的日益普及,人们面临的主要问题是“数据丰富,但信息贫乏”,即面对浩瀚的数据海洋,却不知该如何有效的地利用这些数据。面对这一问题的挑战,数据挖掘技术应运而生,并显示出强大的生命力。从海量的历史数据中挖掘出其背后蕴含的价值信息对揭发事物发展变化有着重要意义,同时也为科学决策和正确认识事物提供了依据。这些历史数据普遍具有时间性,因此,时间序列数据挖掘研究作为数据挖掘技术研究的重要组成部分,一直以来都受到广泛地重视,成为具有重要理论和实用价值的热点研究课题之一。本文针对时间序列数据的时态关联规则挖掘中时间序列数据表示,频繁序列挖掘,时态关联规则表示和时间序列预测等问题进行研究分析,在频繁序列挖掘和时态关联规则表示等方面取得了一些成果,主要研究工作和研究内容如下:在时序数据中,首先面对的时间区间、时态关系、和时间序列数据表示方法等问题,本文给出了时间序列数据的定义;针对股票交易数据应用,给出了一种相对斜率符号化方法。对已有互关联后继树模型进行了分析,发现此模型能够快速创建并保存挖掘序列的线索,从这个模型中任意分支按线索访问得到的序列是挖掘序列的子序列,根据这性质给出了查询控制机制,尽管如此,一些不需要访问的分支依然被访问到了;针对这一冗余问题,提出了互关联统计线索树模型,互关联统计线索树保存了时间序列的有序性,归并了同类序列,对同类序列创建了线索,避免了查询不必要分支,具有准确定位的特点。本文结合互关联后继树与互关联统计线索树各自优点,提出互关联后继树与互关联统计线索树挖掘频繁序列算法,使挖掘频繁序列的时间复杂度降至为O(可能频繁项的分支数)。对已有的时间序列挖掘思想进行研究,发现对间隔连续序列的研究工作几乎没有开展,本文提出了间隔频繁序列的定义及性质,给出关联加权有向图挖掘间隔频繁序列方法,利用有向图路的有向性保证时间序列有序性,利用加权找出构成可能间隔频繁序列的紧密非频繁序列;使用互关联后继树与统计线索树结合算法对连续非频繁项进行查询、验证、统计,从而得到间隔频繁序列。对时态关联规则进行研究,提出了相对支持度概念,用相对支持度对挖掘出来的连续频繁序列和间隔频繁序列进行表示,获取该时间序列的时态关联规则;利用时态关联规则对时间序列进行预测;通过实验对所提方法进行验证,验证了该算法是有效性、可行性。科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。随着计算机应用的普及和数据库技术的不断发展,数据库管理系统的应用领域越来越广泛。特别是条形码和信用卡的普及和使用,进一步加速了商业、金融、保险等领域的信息化进程。人们已经用计算机取代了绝大部分手工操作,使信息数据库系统的信息源不断扩大。同时,海量存储设备不断涌现。面对这些海量和繁杂的信息,如何才能从中提取有价值的知识,是人们需要解决的问题。基于数据库的知识发现(KDD)及相应的数据挖掘就在这样的环境下出现了。数据挖掘是从大量、含有噪声的信息或数据中,挖掘出不为人知的规律或知识,从而更好的指导人们的生产、生活。目前,已经被用到各个领域。根据挖掘研究的数据不同,又有不同的分支;其中,有一类数据具有时间特性在里面,称之为时间序列数据,这类数据在日常生活、工作、生产和科技等各个领域涉足。对这类数据的挖掘是十分必要而且有意义的,对它的挖掘,称之为时间序列数据挖掘。时间序列数据挖掘是数据挖掘的一个分支,当然数据挖掘的经典方法对时间序列数据的挖掘有很好的指导作用,但是由于时间特性,不能将其方法全盘照搬到时间序列挖掘中。本文介绍了数据挖掘的一些基本知识,包括数据挖掘的背景、历史,数据挖掘过程;论述了目前比较流行的挖掘算法,比如传统统计方法、可视化技术、决策树、神经网络、遗传算法、关联规则挖掘算法、粗糙集方法、贝叶斯分类方法、模糊集方法、k-最临近分类法对这些算法做了简要的分析,指明各种算法论述的文章,以便读者需深入时查阅。时间数据序列挖掘是数据挖掘的一个重要组成部分,也是目前研究的热点问题之一。本文介绍了时间序列数据挖掘的目的、任务和方法,介绍时间序列数据变换方法、数据相似搜索、聚类/分类分析、数据可视化、时间序列分割与模式发现、时间序列预测等方法,总结了将来的发展方向。最后,对新动态进行了简单介绍。

论文目录

  • 针对时间序列数据的时态关联规则挖掘研究
  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 本文工作
  • 1.3 论文组织结构
  • 第2章 时间序列数据的符号化表示
  • 2.1 时序逻辑基本知识
  • 2.1.1 确定时间的概念与时间序列数据定义
  • 2.1.2 时态关系
  • 2.2 时间序列数据表示
  • 2.2.1 时间序列数据符号表示的必要性
  • 2.2.2 时间序列数据符号表示法
  • 2.2.3 针对股票数据应用的问题表示
  • 2.3 本章小结
  • 第3章 连续频繁序列的挖掘
  • 3.1 连续频繁序列及其性质
  • 3.1.1 关联规则与频繁项集
  • 3.1.2 时态关联规则及其特性
  • 3.1.3 连续频繁序列
  • 3.2 互关联后继树模型
  • 3.2.1 互关联后继树定义与性质
  • 3.2.2 基于互关联后继树挖掘多元频繁序列的方法
  • 3.3 互关联统计线索树
  • 3.3.1 互关联线索树定义及性质
  • 3.3.2 IRST与IRSCT挖掘算法
  • 3.4 本章小结
  • 第4章 间隔频繁序列的挖掘
  • 4.1 间隔频繁序列定义与性质
  • 4.2 利用加权有向图挖掘间隔频繁序列的算法
  • 4.3 本章小结
  • 第5章 时态关联规则表示和时序数据预测
  • 5.1 时态关联规则表示
  • 5.2 时间序列预测
  • 5.3 本章小结
  • 第6章 实验分析
  • 6.1 实验数据存储与符号化
  • 6.2 互关联后继树与统计线索树创建以及频繁序列挖掘
  • 6.2.1 互关联后继树与统计线索树创建
  • 6.2.2 频繁序列挖掘与算法比较分析
  • 6.3 规则表示与预测
  • 第7章 总结与展望
  • 7.1 小结
  • 7.2 未来的研究方向
  • 参考文献
  • 攻读学位期间发表的学术论文和研究成果
  • 致谢
  • 数据挖掘算法与时间序列数据挖掘算法研究综述
  • 摘要
  • Abstract
  • 第1章 数据挖掘简介
  • 1.1 概述
  • 1.1.1 知识发现和数据挖掘概念
  • 1.1.2 数据挖掘逐渐演变的过程
  • 1.1.3 研究历史
  • 1.1.4 出版物及工具
  • 1.1.5 国内现状
  • 1.1.6 业界观点
  • 1.2 数据挖掘过程
  • 1.2.1 问题定义
  • 1.2.2 准备数据
  • 1.2.3 浏览数据及数据预处理
  • 1.2.4 生成模型以及验证模型
  • 1.2.5 部署和更新模型
  • 1.3 数据挖掘的方法和技术
  • 1.3.1 数据准备以及数据预处理的相关技术
  • 1.3.2 数据挖掘算法与分析
  • 1.4 数据挖掘所发现的知识
  • 1.4.1 自动预测趋势和行为
  • 1.4.2 关联分析
  • 1.4.3 聚类
  • 1.4.4 概念描述
  • 1.4.5 偏差检测
  • 1.5 数据挖掘工具
  • 1.6 数据挖掘未来研究方向
  • 1.7 数据挖掘解决的典型商业问题
  • 1.8 本章小结
  • 第2章 时序数据及时序数据挖掘简介
  • 2.1 概述
  • 2.2 时序逻辑基础知识
  • 2.2.1 确定时间的概念与时态关系
  • 2.2.2 时态语义
  • 2.2.3 时间序列数据的表示和符号化
  • 2.3 时间序列数据挖掘的主要研究内容
  • 2.3.1 时间序列数据变换
  • 2.3.1.1 离散傅里叶变换数据表示
  • 2.3.1.2 奇异值分解数据表示
  • 2.3.1.3 离散小波变换数据表示
  • 2.3.2 时间序列数据相似搜索
  • 2.3.3 时间序列聚类/分类分析
  • 2.3.4 时间序列数据可视化
  • 2.3.5 时间序列分割与模式发现
  • 2.3.6 时间序列预测
  • 2.3.6.1 基于统计学理论的顶测方法
  • 2.3.6.2 神经网络预测法
  • 2.3.6.3 模糊数学预测法
  • 2.3.6.4 混沌预测法
  • 2.3.6.5 状态空间预测法
  • 2.3.6.6 组合预测法
  • 2.3.7 TSDM应用研究
  • 2.4 未来的研究方向
  • 2.5 本章小结
  • 第3章 新动态与新热点简介
  • 3.1 流数据挖掘
  • 3.2 隐私保护数据挖掘算法
  • 3.3 空间数据挖掘
  • 3.4 其它新方向
  • 3.5 本章小结
  • 参考文献
  • Study of Temporal Association Rules Mining for the Time-SeriesData
  • Abstract
  • Chapter 1 Introduction
  • 1.1 Background and Significance
  • 1.2 This paper work
  • 1.3 Papers organizational structure
  • Chapter 2 Time-series data of symbols
  • 2.1 Sequential logic basic knowledge
  • 2.1.1 Determine the time and the concept of time-series data definition
  • 2.1.2 Tense relations
  • 2.2 Time-series data of denotation
  • 2.2.1 Time-series data that the need for symbols
  • 2.2.2 Time-series data symbols law
  • 2.2.3 Application of the stock data for time series data symbol of denotation
  • 2.3 Summary of this chapter
  • Chapter 3 Close frequent sequence of mine
  • 3.1 Close and continuous nature of the frequent sequence
  • 3.1.1 Association rules and frequent itemsets
  • 3.1.2 Temporal association rule
  • 3.1.3 closely frequent sequence
  • 3.2 Inter Relevant Successive Trees
  • 3.2.1 IRST of definition and nature
  • 3.2.2 Based on IRST Mining frequent sequence of multiple methods
  • 3.3 Inter Relevant Statistics Clues Trees
  • 3.4 Summary of this chapter
  • Chapter 4 Mine gap frequent sequence
  • 4.1 Gap frequent sequence of definition and nature
  • 4.2 Use the weighted directed graph to mine Gfs
  • Chapter 5 Temporal association rules of denotation and prediction of time series data
  • 5.1 Temporal association rules of denotation
  • 5.2 Prediction of time series data
  • Chapter 6 Experimental Analysis
  • 6.1 Experimental data storage and symbols
  • 6.2 IRST and IRSCT of creation and frequent items mine
  • 6.2.1 IRST and IRSCT of creation
  • 6.2.2 Mine frequent item and algorithm compared
  • 6.3 Denotation of rules and prediction
  • Chapter 7 Summary and Prospects
  • 7.1 Summary
  • 7.2 The Future Direction
  • Study of Data Mining Algorithms and Time-Series Data MiningAlgorithms
  • Abstract
  • Chapter 1 Introduction of data mining
  • 1.1 Overview
  • 1.1.1 What is knowledge discovery and data mining
  • 1.1.2 Data Mining gradually evovling process
  • 1.1.3 Study history
  • 1.1.4 Publications and tools
  • 1.1.5 Domestic status quo
  • 1.1.6 The industry point of view
  • 1.2 Data mining process
  • 1.2.1 Definition of the problem
  • 1.2.2 Ready data
  • 1.2.3 Browser data and data preprocessing
  • 1.2.4 Generation models and model verification
  • 1.2.5 Deployment and updating model
  • 1.3 Data mining methods and techniques
  • 1.3.1 Data and prepare the relevant technical data preprocessing
  • 1.3.2 Data mining algorithms and analysis
  • 1.4 Data Mining found knowledge
  • 1.4.1 Automatically forecast trends and
  • 1.4.2 Correlation Analysis
  • 1.4.3 Clustering
  • 1.4.4 Concept description
  • 1.4.5 Error detection
  • 1.5 Data mining tools
  • 1.6 On the future direction of data mining
  • 1.7 The typical data mining to solve business problems
  • 1.8 Summary of this chapter
  • Chapter 2 Time-series data in time sequence data mining Profile
  • 2.1 Summary
  • 2.2 Sequential logic basic knowledge
  • 2.2.1 Establish the concept of time and tense relations
  • 2.2.2 Temporal semantics
  • 2.2.3 That the time-series data and symbols of
  • 2.3 Time-series data mining on the main content
  • 2.3.1 Time-series data transformation
  • 2.3.1.1 Discrete Fourier transform that data
  • 2.3.1.2 SVD data that
  • 2.3.1.3 DWT data that
  • 2.3.2 Time-series data similar search
  • 2.3.3 Time series clustering/classification analysis
  • 2.3.4 Time-series data visualization
  • 2.3.5 Time series split with the pattern found
  • 2.3.6 Time series prediction
  • 2.3.6.1 Arguments based on statistical method of measuring the top Conclusion
  • 2.3.6.2 Neural network forecasting method
  • 2.3.6.3 Fuzzy prediction method
  • 2.3.6.4 Chaotic prediction method
  • 2.3.6.5 State space prediction method
  • 2.3.6.6 Combination of forecast
  • 2.3.6.7 Other technologies
  • 2.3.7 TSDM Applied Research
  • 2.4 On the future direction
  • 2.5 Summary of this chapter
  • Chapter 3 new developments and new hot spot for brief
  • 3.1 Flow of data mining
  • 3.2 Privacy of data mining algorithms
  • 3.3 Spatial Data Mining
  • 3.4 Other new direction
  • 3.5 Summary of this chapter
  • 相关论文文献

    • [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
    • [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
    • [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
    • [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
    • [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
    • [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
    • [7].王嵬作品[J]. 当代油画 2017(07)
    • [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
    • [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
    • [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
    • [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
    • [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
    • [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
    • [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
    • [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
    • [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
    • [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
    • [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
    • [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
    • [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
    • [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
    • [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
    • [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
    • [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
    • [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
    • [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
    • [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
    • [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
    • [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
    • [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    针对时间序列数据的时态关联规则挖掘研究
    下载Doc文档

    猜你喜欢