论文摘要
近年来,时间序列数据挖掘的研究技术在很多领域得以应用。合适的时间序列模型是对序列特性的一种反映,由于基于模型的时间序列数据挖掘方法能够发现序列的内在规律,因此这种方法具有很好的研究前景。隐Markov模型(HiddenMarkov Model,HMM)是一种重要的时间序列模型,本文以HMM为基础,结合监测流数据处理等应用需求,对基于HMM的时间序列数据挖掘相关算法进行了研究,主要内容包括时间序列的识别、HMM的隐状态数的自动选择及初始化、基于HMM的时间序列聚类、股票价格序列的预测等。本文主要的成果包括:(1)HMM的隐状态数的自动选择及初始化针对传统基于BIC(Bayesian Information Criterion)的HMM选择方法的不足,如BIC候选模型多,从而导致算法的复杂度大,本文提出了基于聚类和BIC的HMM选择方法——CBIC(Clustering and BIC),基于相应的聚类结果初始化HMM。由于CBIC改变了BIC候选模型的首选方式,减少了不必要的候选HMM的训练,使得算法复杂度降低。在CBIC算法中,首先对观察数据聚类,聚类的个数是在一定的范围内变化。为了选取最可能的聚类,定义了序列中点的趋变度,并选取聚类结果中似然值序列的趋变度最大的聚类为最可能的聚类。为了提高聚类的效率,提出了混合高斯分布的峰度检测算法,并证明了非重叠的混合高斯分布的峰度值为3,而当各成分都不相同时,重叠的混合高斯分布峰度值不等于3。为了验证CBIC算法的有效性,分别在合成数据集与实际数据集上进行实验,结果表明CBIC算法的复杂性小,计算精度较传统方法高。(2)基于HMM的时间序列聚类由于基于HMM的时间序列层次聚类算法复杂度很高,因而将分区和分层结合的聚类方法有很大优势,如基于k-Means和分层结合的聚类方法Hier-k-HMMs、Hier-moHMMs方法,但是这种方法需要事先指定划分数、HMM的隐状态数和最终的聚类数,另外划分的初始化及HMM的初始化都对聚类质量有很大影响。针对这些不足,提出了一种基于HMM的时间序列聚类算法HBHCTS。采用基于距离阈值的初始分区生成方法,定义了基准概率,提出了一种有效的距离阈值设置方法。HBHCTS算法单遍扫描时间序列集形成初始分区,能以较高置信水平保证初始分区的正确性,避免了指定分区数,如Hier-moHMMs方法,而且HBHCTS使用第三章提出的CBIC方法,可以自动确定HMM的隐状态数和相应的HMM初始化。HBHCTS算法的优点为:1)不需要指定初始的聚类数及相应的初始化;2)不需要指定HMM的隐状态数及相应的初始化;3)可以清楚地给出类的表示;4)对序列长度不敏感;5)当有新的序列加入时,只是将新的序列与已有的类(模型)集合做比较,不需要所有的序列重新执行聚类算法,易于实现增量聚类,初始分区聚类适用于时间序列流数据处理。分别在合成数据集和实际的EEG数据集进行了实验,同Hier-moHMMs方法进行了比较,实验结果表明HBHCTS和CBIC方法是有效的。(3)股票价格序列的自适应预测结合股票价格序列的特点,提出了一种自适应的基于HMM的股票价格预测的方法。原始的IBM、Dell和Apple股票价格序列不适合建立HMM。通过研究股票收益率的短相关特征,认为IBM、Dell和Apple的收益率序列适合用HMM描述。采用本文提出的CBIC方法自动确定HMM隐状态数,在预测过程中当预测误差大于一定阈值时,采用模型自动更新方法建立新的模型。通过对股票价格序列的不同转换,建立相应的HMM,进行了单步值预测和趋势预测。单步值预测同Hassan等人的HMM fusion model方法、ARIMA方法进行了比较,实验结果表明所提出的预测算法在IBM、Dell和Apple股票价格预测中,比现有的不更新模型的方法能得到更好的结果。
论文目录
相关论文文献
- [1].基于非稳态时间序列的生理控制模型研究[J]. 系统工程理论与实践 2020(02)
- [2].基于多样化top-k shapelets转换的时间序列分类方法[J]. 计算机应用 2017(02)
- [3].时间序列趋势预测[J]. 现代计算机(专业版) 2017(02)
- [4].基于分型转折点的证券时间序列分段表示法[J]. 商 2016(31)
- [5].基于ARMA模型的股价预测及实证研究[J]. 智富时代 2017(02)
- [6].《漫长的告别》(年度资助摄影图书)[J]. 中国摄影 2017(04)
- [7].王嵬作品[J]. 当代油画 2017(07)
- [8].基于模糊时间序列的计算机信息粒构建研究[J]. 粘接 2020(10)
- [9].基于时间序列挖掘的合成旅装备维修保障能力预测[J]. 系统工程与电子技术 2020(04)
- [10].风速时间序列混沌判定方法比较研究[J]. 热能动力工程 2018(07)
- [11].土壤退化时间序列的构建及其在我国土壤退化研究中的意义[J]. 土壤 2015(06)
- [12].基于信息颗粒和模糊聚类的时间序列分割[J]. 模糊系统与数学 2015(01)
- [13].不确定时间序列的降维及相似性匹配[J]. 计算机科学与探索 2015(04)
- [14].时间序列的异常点诊断方法[J]. 中国卫生统计 2011(04)
- [15].基于独立成分分析的时间序列谱聚类方法[J]. 系统工程理论与实践 2011(10)
- [16].面向不确定时间序列的分类方法[J]. 计算机研究与发展 2011(S3)
- [17].一种基于频繁模式的时间序列分类框架[J]. 电子与信息学报 2010(02)
- [18].超启发式组合时间序列预报模型[J]. 福建电脑 2020(08)
- [19].基于深度学习的时间序列算法综述[J]. 信息技术与信息化 2019(01)
- [20].基于时间序列符号化模式表征的有向加权复杂网络[J]. 物理学报 2017(21)
- [21].基于互相关的二阶段时间序列聚类方法[J]. 计算机工程与应用 2016(19)
- [22].基于期货市场行为的时间序列切分及表示方法研究[J]. 中国管理信息化 2015(19)
- [23].基于形态特征的时间序列符号聚合近似方法[J]. 模式识别与人工智能 2011(05)
- [24].基于模糊时间序列对我国对外贸易中的进口水平的预测[J]. 统计与决策 2010(23)
- [25].模糊变量时间序列及其应用[J]. 辽宁工程技术大学学报(自然科学版) 2010(06)
- [26].时间序列流的分层段模型[J]. 小型微型计算机系统 2009(04)
- [27].发动机转速时间序列分形特征分析[J]. 机械科学与技术 2008(11)
- [28].基于HDAD的异构航空数据异常检测的研究[J]. 计算机仿真 2020(03)
- [29].重庆藕塘滑坡地下水位时间序列混沌性判别与预测[J]. 人民长江 2020(S1)
- [30].基于能量过滤的不确定时间序列数据清洗方法[J]. 智能计算机与应用 2019(04)
标签:时间序列数据挖掘论文; 模型选择论文; 时间序列聚类论文; 时间序列预测论文;