针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用MapReduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心的距离并标记其属于的聚类;指派Reducer分任务计算同一聚类中的记录数量num和属性向量之和sum,并利用Laplace机制产生的噪声扰动num和sum,进而实现隐私保护。根据差分隐私的组合特性,从理论角度证明整个算法满足e差分隐私保护。实验结果证明了该方法在提高隐私性和时效性的-情况下,保证了较好的可用性。