论文摘要
时间序列广泛存在于现实生活的各个领域,包括语音识别、金融管理等。而实现时间序列的分类也是数据挖掘领域的重要内容。传统的时间序列序列方法主要有两类,即基于相似度与基于模型的方法。这些分类方法属于监督的学习算法,需要大量的标记时间序列去训练以得到可靠的分类器;但是大量的标记序列却很难获得,而如果只使用初始标记序列训练分类器,则得到的分类器的准确率会非常低;而相反,现实中未标记时间序列却很容易获得,因此,结合标记序列和大量未标记序列的信息来训练分类器的半监督学习方法成为研究的热点。实现基于半监督学习的时间序列分类为本文探讨的重点,针对基于隐马尔可夫模型(HMM)在标记时间序列缺少的情况下所出现训练得到的模型分类准确率低的问题,研究使用自训练算法的迭代学习过程来扩大标记序列数据集,并在扩大的标记集上训练HMM使训练得到的模型更加准确和可靠。此外,还研究采用协同训练算法的迭代过程来扩大标记集,其中在协同训练中采用HMM和最近邻分类这两个基分类器,在每次的迭代中,这两个基分类器将分别选择数据进行标记。由于标记集中会产生误标记的情况,故研究使用基于粗糙集上下近似的方法来对扩大的标记集进行编辑。另一方面,对线性邻居标签传递这种半监督学习算法在构造各个数据点之间的近邻图时存在的缺点进行改进,利用粗糙K均值聚类对数据集的聚类结果信息来对K最近邻邻居选择方式进行修改和调整,以使构造的近邻图更加合理。通过在UCR时间序列数据集上进行了大量的对比实验,实验结果表明,使用Self-Training及Co-Training过程扩大标记集后训练得到的HMM的分类准确率更高。以Synthetic Control为例,在每类标记个数为4时,使用Self-Training过程提高了8.11%,而使用Co-Training则提高了15.19%;同时,改进后的基于粗糙K均值聚类(K取4)的LNP方法比原LNP方法提高了7.24%。
论文目录
相关论文文献
标签:半监督学习论文; 隐马尔可夫模型论文; 自训练论文; 协同训练论文; 线性邻居标签传递论文;