论文摘要
近年来,随着我国经济建设持续不断的高速发展和人们生活水平的不断提高,城市机动车保有量连年持续增长,机动车已成为各城镇居民出行的主要交通工具之一。但与此同时,利用机动车进行的违法犯罪活动也越来越多,如:机动车假牌假证、机动车伴随、机动车违章逃逸及盗抢等。由于涉案机动车辆往往具有灵活、隐蔽性强、机动性高等特点,这给公安交警部门对犯罪嫌疑车辆的侦查和追踪增大了难题。目前,随着道路监控技术的发展,我国各大城市普遍布设了车牌识别监控点,其不断积累的交通信息流过车记录为涉案车辆的检测、追踪或预测预警提供了有效的数据支持。序列模式挖掘作为数据挖掘的一个重要研究领域,可用于分析和挖掘带时间特征的交通信息流中隐藏的有价值模式,从而为社会有关部门提供更好的决策与服务。然而,由于交通信息流数据量的不断增大,传统的序列模式挖掘算法在数据存储空间和处理效率上已无法满足实际应用需求,分布式计算平台的出现解决了海量数据的存储和计算瓶颈,从而使针对海量交通信息流的序列模式挖掘成为可能。Hadoop作为一个方便、快速的分布式计算平台,利用分布式文件系统HDFS实现了对大文件或超大文件的存储和容错,并使用MapRedcue编程模型实现了快速运算。但是,由于传统的序列模式挖掘算法只适用于对集中存储的数据进行分析处理,因此如何设计适合在Hadoop平台上运行的分布式序列模式挖掘算法是有效实现海量数据处理的关键。针对分布式平台特性,深入研究序列模式挖掘的具体实现步骤并尽可能增大算法并行化实现部分,有利于提高海量数据的序列模式挖掘效率。本文将基于Hadoop的分布式序列模式挖掘与针对交通信息流领域的实际应用相结合,利用Hadoop分布式平台的优势来解决传统序列模式挖掘在海量数据处理上的不足。首先,本文详细介绍了分布式文件系统HDFS的存储设计原理及文件读写流程,并据此实现了交通信息流的数据预处理。通过对过车记录数据进行有效的清理、转换和归约,实现了其从传统关系型数据库到分布式文件系统HDFS中的转移与转换,以方便后续的分布式序列模式挖掘。然后,本文剖析了MapReduce编程模式的运行机制,给出了序列模式挖掘相关概念在交通信息流中的新定义,并设计了基于MapReduce的交通信息流分布式序列模式挖掘算法。本文给出了算法的详细实现过程及算法优缺点,并针对该算法挖掘结果的局限性,结合闭合序列模式挖掘的BIDE算法,实现了BIDE算法的并行化及到Hadoop分布式平台的有效移植,从而满足更完整、更全面的应用需求。最后,本文搭建了Hadoop集群实验环境,并将相关算法应用于公安、交警等部门基于海量交通信息流的伴随车辆识别案例中,从理论和实验两方面对比和验证了算法的有效性与实用价值。综上所述,本文所提出的分布式序列模式挖掘算法是可行的、有意义的。其在Hadoop分布式平台上所展现的较好适应性与扩展性,反映了在实际应用中引入分布式模型解决海量数据序列模式挖掘问题的必要性,同时也为其他序列模式挖掘算法在Hadoop平台上的有效运用提供了一定的参考。