论文摘要
随着网络技术与数据库技术的发展,人们在各个领域里已经积累了海量的数据,如何从这些大量的数据中挖掘出有用的信息或知识已经引起研究人员的重视。数据挖掘可以从这些海量数据中提取潜在有用的信息或规律。在很多情况下挖掘所需要的原始数据可能分布在不同的位置,或者被不同的人、公司或单位等所拥有。某些拥有数据的用户希望通过与他人或其它单位合作来进行全局数据挖掘,从而得到一些潜在的数据规律,但是他们希望这种合作不泄露自己数据的隐私,这就是保密的数据挖掘。保密数据挖掘具有重要的实际意义。保护隐私数据挖掘的目的是在多方合作进行数据挖掘时,参与者除了知道自己的数据和挖掘结果外,无法知道其他数据,即参与者的任何私有数据在数据挖掘过程中将不会被泄露。目前,数据挖掘隐私保护方法主要有三种:一是数据扰乱;二是数据匿名技术;三是应用多方安全计算对数据进行秘密计算。本文关注安全多方计算,安全多方计算足指在一个互不信任的网络环境中,n(n≥2)个用户能够在不泄露自己的私有信息的情况下进行合作共同执行某项计算任务,并且计算的结果能达到预期的效果。本文首先总结归纳现阶段数据以及多方保密的研究现状;其次阐述了安全多方计算与数据挖掘的关系;最后概述了分布式环境下的聚类隐私保护算法,重点在现有的算法基础上提出了两种新算法:一是基于同态加密的隐私保护的K-Means聚类数据挖掘算法;二是半诚实参与者模型下,基于向量内积协议的K-Means聚类数据挖掘隐私保密算法,这些算法具有很小的通信消耗,较低的计算时间复杂度,以及较高的准确率。