论文题目: 一种基于索引的频繁模式算法研究
论文类型: 硕士论文
论文专业: 软件工程
作者: 侯俊杰
导师: 李春平
关键词: 频繁模式,内存索引,时间序列,事件预测
文献来源: 清华大学
发表年度: 2005
论文摘要: 在本文中,我们提出了一种基于模式增长的频繁模式挖掘算法(简称为MIndexing算法)。我们通过一种索引结构在映射数据库中来不断地增长模式长度。这种索引结构是一种具有压缩性质的前缀树结构,用来表示当前频繁的模式,它占用较少的内存,使得我们这种基于内存的算法有很高的执行效率。我们采用现实数据集以及IBM人工数据集对MIndexing算法进行测试。试验结果显示,对于一般类型的特别是较为稀疏的数据集,MIndexing算法比Apriori和FP-growth方法有更好的性能。在挖掘频繁模式时,我们通常是在对基于多个不同支持度域值下的频繁模式进行挖掘后,才能有获得有价值的频繁模式信息。如果每次挖掘时都是从头开始进行,必然会造成很大的时间浪费。在本文中,我们提出了一种有效的方法来减少多次挖掘过程中的时间以及资源的消耗。在通过使用MIndexing算法找出最小支持度域值下的频繁模式后,在我们的方法中,对于其他较大支持度域值下的频繁模式的挖掘就显得相对简单了。我们的试验结果显示,对于比较稀疏的数据集,在同等条件下MIndexing算法比Apriori和FP-growth方法具有更好的性能;对于多次频繁挖掘时的综合性能,MIndexing算法更胜于Apriori和FP-growth方法。事件预测是关联规则领域研究的重要方向之一。在本文中我们提出一种有效的方法来对时间序列里面的“稀有事件”进行有效预测。举例来说,这类稀有事件可以是地震预测、机器故障、股票行情以及市场行情分析等。我们将等长的时间间隔(一天,一周,或一年等)里面按照时间顺序发生的事件序列作为一条事务。在本文中我们对“稀有事件”给出了规范化定义。另外,我们把MIndexing算法作为对用户感兴趣的稀有事件进行快速而准确预测的挖掘算法。我们通过使用Matlab生成一些模拟数据,对其性能进行评估。试验结果显示,我们的方法能够准确且快速的预测用户感兴趣的事件信息。
论文目录:
摘要
Abstract
第1章 引言
1.1 数据挖掘简介
1.2 频繁模式挖掘
1.3 序列模式挖掘
1.4 复杂类型的模式挖掘
1.5 本文研究的内容
第2章 相关工作
2.1 频繁模式挖掘算法
2.2 序列模式挖掘算法
2.3 挖掘算法采用的数据结构
第3章 基于内存索引的频繁模式挖掘算法
3.1 本章引论
3.2 背景
3.3 基于内存索引的频繁模式挖掘算法
3.4 算法性能评估
3.5 本章小结
第4章 同时挖掘不同支持度下频繁模式的一种有效方法
4.1 本章引论
4.2 背景
4.3 同时挖掘不同支持度下频繁模式的方法
4.4 方法实现和性能评估
4.5 本章小结
第5章 一种在时间序列中有效预测稀有事件的方法
5.1 本章引论
5.2 背景
5.3 问题描述
5.4 稀有事件预测算法
5.5 算法实现和性能评估
5.6 本章小结
第6章 结论
6.1 研究总结
6.2 进一步开展的工作
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
发布时间: 2007-03-14
参考文献
- [1].频繁项挖掘算法及其应用研究[D]. 刘洋.广西民族大学2011
- [2].蝙蝠算法的改进与应用[D]. 何子旷.广东工业大学2016
- [3].针对大规模时间序列数据的改进聚类算法[D]. 杜荣浩.北京交通大学2017
- [4].蚁群算法的改进[D]. 范红梅.燕山大学2007
- [5].面向微博话题的粒子群优化聚类算法研究[D]. 郝丽静.河南理工大学2016
- [6].基于增量的不确定社团发现算法研究[D]. 刘爽爽.山东师范大学2016
- [7].FPGA打包算法的研究与优化[D]. 辛文.西安电子科技大学2015
- [8].目标匹配与跟踪算法研究[D]. 杨海燕.江南大学2014
- [9].基于信息熵的加权蚁群算法的研究与应用[D]. 王茴茴.昆明理工大学2012
- [10].改进人工蜂群算法的研究及其应用[D]. 杨琳.广西工学院2012
相关论文
- [1].文本分类中特征选择的理论分析和算法研究[D]. 熊小草.清华大学2007
- [2].基于数据仓库的银行战略绩效评价系统[D]. 郜宝林.清华大学2005
- [3].数据挖掘中关联规则算法的研究[D]. 钱冬云.天津大学2006
- [4].中文全文检索系统中索引的研究[D]. 赵会杰.北京交通大学2007
- [5].数据库系统索引结构实现研究[D]. 汪超.天津大学2006
- [6].基于偏序的频繁序列模式压缩算法研究[D]. 但红卫.浙江大学2007
- [7].基于语义关联的文本聚类方法[D]. 宋韶旭.清华大学2006
- [8].基于序列模式的入侵检测研究[D]. 李冬芳.郑州大学2006
- [9].聚类分析算法研究[D]. 戴涛.清华大学2005
- [10].基于频繁模式的消息文本聚类研究[D]. 胡吉祥.中国科学院研究生院(计算技术研究所)2006