论文摘要
过程挖掘通过分析企业应用系统所产生的事件日志信息,能够重现业务流程的真实执行过程,并利用所发现的知识对工作流模型进行优化和重构,是数据挖掘技术在工作流管理领域的一种较新应用。自从1998年IBM研究院Agrawal等研究员提出从事件日志中发现工作流结构模型的方法起,至今已涌现出许多过程挖掘的研究,而复杂循环结构的发现和处理是当前过程挖掘中的一个重点和难点问题。因此,研究基于事件日志的能够发现和处理复杂循环结构的过程挖掘算法,是未来研究的一个新的发展方向,对过程挖掘技术提出了新的挑战。本文在研究过程挖掘中经典α过程挖掘算法及其扩展算法基础之上,针对算法挖掘工作流模型中复杂循环结构能力不足的问题,根据工作流模型中循环结构与其它结构的不同嵌套情况,讨论并分析其在事件日志中的表现形式,并基于活动之间的因果依赖关系,提出启发式判定规则,给出一种具有发现和处理复杂循环结构能力的方法。通过给出包含事件日志中活动间的因果依赖关系及循环结构执行轨迹信息的递归定义,将复杂循环结构识别方法应用于a过程挖掘算法中,使其具有挖掘复杂循环结构的能力。该扩展α过程挖掘算法的思想是:识别出工作流模型中的最外层循环结构并使用虚拟任务进行代替,从而抽取出事件日志中的循环结构执行轨迹信息,应用a过程挖掘算法对不包含循环结构执行轨迹信息的日志进行挖掘得出流程主模型;然后分别对每个循环结构的内部模块进行挖掘,并将得出的子模型代替主模型中对应的虚拟任务;递归进行上述过程,对循环结构的执行轨迹信息进行挖掘,并将每个子模型代入主模型,直至最终得到完整的工作流模型。论文实现了该扩展算法,并将其作为挖掘插件集成到开源的过程挖掘框架ProM中。同时通过理论分析及模拟实验,对算法进行了全面的评估,验证了其对于复杂循环结构的挖掘能力要优于a过程挖掘算法。