论文摘要
关联规则挖掘是数据挖掘领域中一个重要的研究方向,它反映了一个事物与其他事物之间的相互依存性和关联性。IBM公司Almaden研究中心的R.Agrawal首次提出关联规则的模型,并给出求解算法,其中Apriori算法最为经典,后人大多数是在此算法的基础上进行了改进。虽然在算法的时间效率方面有了明显的提高,但仍存在很大的提高空间,另外还存在着一个严重的问题:在关联规则的挖掘过程中,由于它所使用的支持度没有考虑属性之间的重要性的差别,从而导致了挖掘出大量无效的,无用的,用户不感兴趣的冗余的规则。本文以此为立据,一方面,利用粗糙集(Rough Set)的有关理论,提出新的关联规则挖掘算法,提高了算法的时间效率;另一方面,把事务数据中各个属性权值考虑在内,重新定义新的加权支持度,提高了挖掘结果有效性。主要工作包括:1、运用粗糙集(Rough Set)的有关理论,推导出“多属性不可分辨类”的性质,然后利用此性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致的时间效率低下问题,并通过大量试验验证其算法的高效性。2、通过典型的例子透彻分析出传统支持度隐含着两种弊端:1)没有考虑属性的权重对规则产生的影响;2)没有考虑规则中包含属性的数目对规则产生的影响。为了消除这两种弊端,重新定义了加权支持度,通过理论分析说明其合理性,最后通过试验验证该公式的有效性。