基于MapReduce的HDFS数据窃取随机检测算法
为了解决分布式云计算存储的数据窃取检测中,出现数据量大、内部窃取难以检测的问题,以 hadoop分布式文件系统(HDFS,hadoop distributed file system)为检测对象,提出了一种基于MapReduce的数据窃取随机检测算法。分析HDFS文件夹复制产生的MAC时间戳特性,确立复制行为的检测与度量方法,确保能够检测包括内部窃取的所有窃取模式。设计适合于 MapReduce 任意的任务划分,同时记录 HDFS 层次关系的输入数据集,实现海量时间戳数据的高效分析。实验结果表明,该算法能够通过分段检测策略很好地控制漏检率和误检文件夹数量,并且具有较高的执行效率和良好的可扩展性