论文摘要
系统仿真技术综合集成了计算机技术、网络技术、图形图像处理技术、信息处理技术、自动控制技术等多个领域的知识,是系统分析和研究的重要手段。数据挖掘技术是获取仿真数据中隐藏知识的有力工具。随着仿真系统复杂程度的提高和规模的增大,仿真时间越来越长、仿真所产生的数据量越来越大。这使得仿真数据具有数据流的特征。因此有必要采用数据流挖掘技术处理仿真数据。数据流是一种连续、高速、无限、时变的有序数据序列。数据流的特征对数据流的挖掘提出了严峻的挑战。传统面向静态数据集的算法无法直接用于挖掘数据流,而现有数据流挖掘算法存在时空效率不高的缺陷。因此,针对仿真中常用的数据挖掘任务,研究时空效率高效的相应数据流挖掘算法具有重要意义。关联规则挖掘是仿真中最常用的一类数据挖掘任务,而频繁模式挖掘是生成关联规则的关键步骤。为此,论文研究了数据流中频繁模式挖掘的关键算法,重点研究了数据流中最大频繁项集、频繁闭项集和Top-K最频繁项集的挖掘算法,以及基于频繁闭项集的数据流分类算法和基于Top-K频繁模式的高维数据流聚类算法。论文最后研究了如何将数据流挖掘算法快速集成到不同的仿真系统中,着重考虑了数据流挖掘算法资源在仿真中的重用。论文的主要研究工作及创新包括以下六个方面:(1)提出了一种数据流最大频繁项集挖掘算法。相对于完全频繁项集和频繁闭项集,最大频繁项集的数目最少,挖掘最大频繁项集的算法具有较高的时空效率。为此,论文研究了数据流中最大频繁项集的挖掘技术,旨在提供一种能够在任意时刻都快速维护数据流滑动窗口中最大频繁项集的算法。主要研究内容包括三个方面。首先提出了一种面向数据流的最大频繁项集剪枝技术,即子集等价剪枝技术。接着,提出了一种最大频繁项集单遍挖掘算法FPMFI-DS。其中,FPMFI-DS算法中应用了子集等价剪枝技术以降低算法的搜索空间大小,从而提高算法效率。最后,基于FPMFI-DS算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+。实验表明,对于稠密数据集子集等价剪枝技术能够缩小约40%的搜索空间;FPMFI-DS算法的挖掘速度快并具有良好的可扩展性;FPMFI-DS+算法更新挖掘速度快并具有良好的稳定性。(2)提出了一种数据流频繁闭项集挖掘算法。频繁闭项集的数目介于完全频繁项集和最大频繁项集之间,并保存了所有项集的支持度信息。因此挖掘数据流中的频繁闭项集既具有较高的时空效率,又保证了信息的完全性。为此,论文提出了一种频繁闭项集挖掘算法FPCFI-DS。该算法能够在有限的存储空间中高速挖掘数据流滑动窗口中的频繁闭项集,并且能够在任意时刻都维护数据流当前窗口中的频繁闭项集。实验表明,FPCFI-DS算法的时空效率显著优于同类经典算法Moment。(3)提出了一种数据流Top-K最频繁项集挖掘算法。Top-K最频繁项集挖掘的优点是不需要用户指定最小支持度阈值,仅指定需要寻找的项集数目k。已有Top-K最频繁项集挖掘算法存在初始项目数目过多、初始边界支持度过高的问题。为此,论文首先提出了一种基于混合搜索方式的高效Top-K最频繁项集挖掘算法MTKFP。该算法综合利用宽度优先搜索和深度优先搜索挖掘Top-K最频繁项集。然后基于MTKFP算法,提出了一种基于Chernoff不等式的数据流Top-K最频繁项集挖掘算法MTKFP-DS。实验表明,MTKFP算法所获得的初始项目数目至少低于已有算法70%,初始边界支持度高于已有算法,从而MTKFP算法的性能优于已有最好算法1倍以上;MTKFP-DS算法适合于对数据流数据的挖掘。(4)提出了一种基于频繁闭项集的数据流分类算法。相对于某些传统分类算法,基于关联规则的分类具有更高的精度。此类算法通常采用频繁项集作为生成类关联规则的依据。但挖掘频繁项集易遭受组合爆炸问题,从而影响算法效率;另外,数据流的出现也对分类算法提出了新的挑战。为此,论文提出了一种高效的基于频繁闭项集的数据流分类算法CBC-DS。在该算法中,设计了高效的频繁闭项集单遍挖掘算法和有效的分类器构建方法。实验表明,CBC-DS算法的平均分类精度比经典算法CMAR高1.09%左右,分类速度快于CMAR算法。(5)提出了基于Top-K频繁模式的高维数据流聚类算法。高维数据聚类是聚类问题中的研究难点。基于密度和基于网格的综合方法能够较好地解决该问题,该方法的关键在于发现高密单元格。传统方法采用挖掘频繁项集的方式发现高密单元格,该方式的不足是需要用户指定最小密度阈值,而且不利于发掘稀疏子空间中的高密单元格。为此,论文分别提出了基于Top-K最频繁项集、基于N-most interesting项集和基于Top-K项目的高维数据流聚类算法。这些算法不需要用户指定最小密度阈值。第二种算法有利于特定维的子空间分组的高密单元格发掘,第三种算法有利于特定子空间的高密单元格的发掘,从而解决稀疏子空间中高密单元格的发掘。实验表明,所提出的算法适用于对高维数据流的聚类。(6)研究了数据流挖掘技术在仿真中的应用。论文提出了基于数据流挖掘技术的仿真应用框架。并且为了能够将数据流挖掘算法快速集成到基于HLA体系结构的仿真系统中,采用模块化开发思想设计了通用性强的数据流挖掘构件和通用数据流挖掘成员,以提高算法资源的重用性。并以“导弹突防仿真系统”为例,介绍了通用关联规则挖掘成员的设计思想。
论文目录
相关论文文献
- [1].基于动态窗口的大数据流式处理技术研究[J]. 数字技术与应用 2020(03)
- [2].基于邻域相似的大数据流滞后相关性挖掘仿真[J]. 计算机仿真 2020(06)
- [3].数据流技术在汽车维修中的应用探讨[J]. 时代汽车 2019(07)
- [4].基于大数据的定性数据流聚类优化模型研究[J]. 西安文理学院学报(自然科学版) 2019(04)
- [5].一种基于数据流的异常值检测改进算法[J]. 中国科技信息 2017(23)
- [6].云计算中数据流存储负载均衡优化仿真[J]. 计算机仿真 2018(10)
- [7].大数据流式计算系统综述[J]. 成组技术与生产现代化 2016(04)
- [8].数据流技术在汽车维修中的应用[J]. 科技展望 2016(16)
- [9].数据流分类挖掘中的概念变化研究[J]. 计算机科学 2014(S2)
- [10].浙江传媒学院加快数据治理形成“数据流”[J]. 中国教育网络 2020(Z1)
- [11].面向非平衡与概念漂移的数据流分类的研究[J]. 现代计算机 2020(04)
- [12].基于迁移学习的数据流分类研究综述[J]. 天津理工大学学报 2019(03)
- [13].试分析电网自动化中数据流技术的运用[J]. 电工文摘 2016(06)
- [14].海量数据流的分类稳定性决策与评判数学模型仿真[J]. 科技通报 2016(02)
- [15].非平稳数据流下的网络入侵检测优化方法研究[J]. 计算机仿真 2016(09)
- [16].分布式数据流分类关键技术研究[J]. 华北科技学院学报 2015(04)
- [17].数据流技术在电喷发动机维修中的应用分析[J]. 湖南农机 2014(05)
- [18].数据流技术在电网自动化中的应用实践[J]. 电子技术与软件工程 2014(08)
- [19].数据流技术在汽车维修中的运用[J]. 黑龙江科技信息 2014(26)
- [20].数据流系统降载研究综述[J]. 计算机应用研究 2008(10)
- [21].基于协调数据流抢占机制的原理及设计[J]. 电脑与电信 2008(10)
- [22].基于多维分层采样的时间维度型大数据流整合系统设计[J]. 现代电子技术 2020(05)
- [23].数据流计算环境下的集群资源管理技术[J]. 大数据 2020(03)
- [24].大数据流计算特点及“单一窗口”适用场景探讨[J]. 中国口岸科学技术 2020(08)
- [25].基于自适应微簇的任意形状概念漂移数据流聚类[J]. 计算机应用与软件 2020(11)
- [26].一种对数据流进行聚类的改进算法[J]. 电子设计工程 2017(22)
- [27].分布式数据流上的高性能分发策略[J]. 软件学报 2017(03)
- [28].一种基于质量估算的空间数据流聚类算法研究[J]. 计算机应用研究 2017(09)
- [29].融合互近邻降噪的动态数据流分类研究[J]. 计算机科学与探索 2016(01)
- [30].多媒体云计算下的大规模数据流调度方法研究[J]. 现代电子技术 2015(20)
标签:仿真论文; 数据流挖掘论文; 关联规则论文; 频繁模式论文; 最大频繁项集论文; 频繁闭项集论文; 最频繁项集论文; 基于关联规则的分类论文; 聚类高维数据流论文;