论文摘要
数据挖掘技术就是研究如何从大量数据中发现有用知识。但是随着挖掘方法和工具的普及,它们会对隐私和信息安全构成威胁,因此,如何在保护私有信息或敏感信息的同时挖掘出有用的知识就成为数据挖掘研究中的一个很有意义的研究课题。隐私保护数据挖掘,其目标在于建立某种关联,跨越数据挖掘和数据机密性之间的这道鸿沟,对原始数据或者挖掘方法进行某种改进,在不向非数据所有者泄露敏感数据取值的同时,发现原始数据的某些统计规律或隐含的知识和规则。本文对数据垂直分布的隐私保护关联规则挖掘方法进行了研究,首先介绍了数据挖掘的基本概念、方法,并对垂直分布关联规则挖掘及隐私保护方法、隐私保护数据挖掘算法的质量度量标准进行了分析和总结。接着,重点介绍了一种基于VDC算法的改进算法IEVDC。改进算法在效率,安全性方面对原算法进行了相关的改进。在挖掘效率方面,本文算法在各原始数据库之间交换事务形成全局数据库后,利用本地真实事务的TID号来形成本地真值数据库,缩短了事务集的长度,减少了事务集的存储空间,并经过一次扫描数据库得到频繁1-项集后,通过对频繁项集中TID号进行正交来得到频繁K-项集,达到了提高数据挖掘效率的目的。在隐私保护方面,采用了数据扰乱技术和多方安全计算相结合的方案,引入了一个安全第三方来完成频繁项集和关联规则的检查,通过干扰信息的添加重建项目的支持度来预防支持度暴露的问题。此外,本文在传统关联规则的筛选方法的基础上,提出一种剪除多余规则且只保留高效规则用于分类的有效分级技术。并根据IEVDC算法的特点,提出一种改进的主站技术作为算法的实现模型图。最后通过实验分析验证了本文提出方法的有效性和可行性。