基于模型的时间序列数据挖掘 ——聚类和预测相关问题研究

基于模型的时间序列数据挖掘 ——聚类和预测相关问题研究

论文摘要

近年来,时间序列数据挖掘的研究技术在很多领域得以应用。合适的时间序列模型是对序列特性的一种反映,由于基于模型的时间序列数据挖掘方法能够发现序列的内在规律,因此这种方法具有很好的研究前景。隐Markov模型(HiddenMarkov Model,HMM)是一种重要的时间序列模型,本文以HMM为基础,结合监测流数据处理等应用需求,对基于HMM的时间序列数据挖掘相关算法进行了研究,主要内容包括时间序列的识别、HMM的隐状态数的自动选择及初始化、基于HMM的时间序列聚类、股票价格序列的预测等。本文主要的成果包括:(1)HMM的隐状态数的自动选择及初始化针对传统基于BIC(Bayesian Information Criterion)的HMM选择方法的不足,如BIC候选模型多,从而导致算法的复杂度大,本文提出了基于聚类和BIC的HMM选择方法——CBIC(Clustering and BIC),基于相应的聚类结果初始化HMM。由于CBIC改变了BIC候选模型的首选方式,减少了不必要的候选HMM的训练,使得算法复杂度降低。在CBIC算法中,首先对观察数据聚类,聚类的个数是在一定的范围内变化。为了选取最可能的聚类,定义了序列中点的趋变度,并选取聚类结果中似然值序列的趋变度最大的聚类为最可能的聚类。为了提高聚类的效率,提出了混合高斯分布的峰度检测算法,并证明了非重叠的混合高斯分布的峰度值为3,而当各成分都不相同时,重叠的混合高斯分布峰度值不等于3。为了验证CBIC算法的有效性,分别在合成数据集与实际数据集上进行实验,结果表明CBIC算法的复杂性小,计算精度较传统方法高。(2)基于HMM的时间序列聚类由于基于HMM的时间序列层次聚类算法复杂度很高,因而将分区和分层结合的聚类方法有很大优势,如基于k-Means和分层结合的聚类方法Hier-k-HMMs、Hier-moHMMs方法,但是这种方法需要事先指定划分数、HMM的隐状态数和最终的聚类数,另外划分的初始化及HMM的初始化都对聚类质量有很大影响。针对这些不足,提出了一种基于HMM的时间序列聚类算法HBHCTS。采用基于距离阈值的初始分区生成方法,定义了基准概率,提出了一种有效的距离阈值设置方法。HBHCTS算法单遍扫描时间序列集形成初始分区,能以较高置信水平保证初始分区的正确性,避免了指定分区数,如Hier-moHMMs方法,而且HBHCTS使用第三章提出的CBIC方法,可以自动确定HMM的隐状态数和相应的HMM初始化。HBHCTS算法的优点为:1)不需要指定初始的聚类数及相应的初始化;2)不需要指定HMM的隐状态数及相应的初始化;3)可以清楚地给出类的表示;4)对序列长度不敏感;5)当有新的序列加入时,只是将新的序列与已有的类(模型)集合做比较,不需要所有的序列重新执行聚类算法,易于实现增量聚类,初始分区聚类适用于时间序列流数据处理。分别在合成数据集和实际的EEG数据集进行了实验,同Hier-moHMMs方法进行了比较,实验结果表明HBHCTS和CBIC方法是有效的。(3)股票价格序列的自适应预测结合股票价格序列的特点,提出了一种自适应的基于HMM的股票价格预测的方法。原始的IBM、Dell和Apple股票价格序列不适合建立HMM。通过研究股票收益率的短相关特征,认为IBM、Dell和Apple的收益率序列适合用HMM描述。采用本文提出的CBIC方法自动确定HMM隐状态数,在预测过程中当预测误差大于一定阈值时,采用模型自动更新方法建立新的模型。通过对股票价格序列的不同转换,建立相应的HMM,进行了单步值预测和趋势预测。单步值预测同Hassan等人的HMM fusion model方法、ARIMA方法进行了比较,实验结果表明所提出的预测算法在IBM、Dell和Apple股票价格预测中,比现有的不更新模型的方法能得到更好的结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 研究的现状与存在的问题
  • 1.2.1 主要方法
  • 1.2.2 主要研究领域
  • 1.2.3 存在的问题和发展方向
  • 1.3 本文工作
  • 1.3.1 本文研究目标与方法
  • 1.3.2 本文的主要成果
  • 1.3.3 本文结构
  • 第二章 时间序列模型
  • 2.1 引言
  • 2.2 HMM模型
  • 2.2.1 HMM的表示
  • 2.2.2 HMM的典型结构
  • 2.2.3 HMM的假设
  • 2.2.4 HMM的基本问题及其算法
  • 2.2.5 HMM的优点
  • 2.3 ARMA模型简介
  • 2.3.1 ARMA模型描述
  • 2.3.2 ARMA模型序列的特点
  • 2.4 时间序列的识别
  • 2.5 本章小结
  • 第三章 HMM的模型选择
  • 3.1 模型选择准则
  • 3.1.1 AIC(Akaike’s Information Criterion)
  • 3.1.2 BIC(Bayesian Information Criterion)
  • 3.2 相关工作
  • 3.3 基于聚类和BIC的HMM的模型选择
  • 3.3.1 CBIC算法的思想
  • 3.3.2 CBIC算法流程图
  • 3.3.3 CBIC算法描述
  • 3.4 算法分析
  • 3.5 实验结果及分析
  • 3.5.1 在合成数据集上的实验
  • 3.5.2 在实际数据集上的实验
  • 3.6 本章小结
  • 第四章 基于HMM的时间序列聚类
  • 4.1 引言
  • 4.2 相关工作
  • 4.2.1 相似性(距离)度量
  • 4.2.2 聚类算法
  • 4.2.3 聚类结果的评估
  • 4.3 HBHCTS聚类算法
  • 4.3.1 HBHCTS算法描述
  • 4.3.2 HBHCTS算法复杂度分析
  • 4.4 实验结果
  • 4.5 本章小结
  • 第五章 股票价格序列的预测
  • 5.1 引言
  • 5.2 相关工作
  • 5.3 股票收益率与HMM
  • 5.4 基于HMM的时间序列自适应预测
  • 5.4.1 自适应预测过程
  • 5.4.2 算法描述
  • 5.5 实验结果
  • 5.6 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 攻读博士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
    • [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
    • [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
    • [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
    • [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
    • [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
    • [7].王嵬作品[J]. 当代油画 2017(07)
    • [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
    • [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
    • [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
    • [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
    • [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
    • [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
    • [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
    • [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
    • [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
    • [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
    • [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
    • [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
    • [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
    • [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
    • [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
    • [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
    • [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
    • [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
    • [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
    • [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
    • [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
    • [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
    • [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)

    标签:;  ;  ;  ;  

    基于模型的时间序列数据挖掘 ——聚类和预测相关问题研究
    下载Doc文档

    猜你喜欢