论文摘要
时间序列是根据时间顺序,对各个观测记录进行排列的数据集合。时间序列数据广泛存在于生产实践和生活的各个领域,因此研究其背后隐藏的信息具有重要的意义。时间序列研究包括有监督学习算法、半监督学习算法和无监督学习算法。其中无监督算法由于无需含类标签的训练集就能对所有样本数据集进行学习而被广泛研究与应用。目前关于时间序列无监督学习算法还研究较少,很多问题还有待解决和完善。时间序列无监督学习主要研究时间序列无监督特征提取、预测、聚类与异常检测。本文主要对时间序列的全序列聚类与无监督的全序列异常检测进行研究。主要研究工作如下:1时间序列的聚类分析为克服常用的时间序列聚类算法易受初始聚类中心影响而导致聚类结果不稳定的问题,本文提出近邻仿射传播模型算法AP-NN。该模型针对仿射传播算法容易产生与实际簇数目不符的聚类结果问题,把对仿射传播算法产生的初始聚簇利用近邻思想进行再次划分,从而解决了AP算法的聚类数不确定的问题。把AP-NN聚类算法应用于由形状标记法得到的不等长时间序列数据集与UCI等长时间序列数据集,实验结果表明该聚类算法能够有效提高聚类相似度。2时间序列的无监督异常检测为避免异常簇中存在正常样本,提出两阶段算法,为考虑局部与全局性质,定义新的异常因子进行异常检测。目前,时间序列异常还没有一个公认的定义,根据时间序列的三种异常类型,本文对时间序列的序列异常展开研究。根据正常数据集往往多于异常数据集的思想,论文首先利用AP算法的聚类结果获取候选异常簇与正常簇,而后提出局部异常因子与全局异常因子相结合的思想,获取新的异常因子以评估时间序列的序列异常程度。通过实验分析表明,该算法提高了检测效率,表现出一定的优越性。