HDFS是HadoopDistributeFileSystem的简称,也就是Hadoop分布式文件系统。1、硬件错误是常态错误检测并快速自动恢复是HDFS的最核心设计目标2、存储超大文件HDFS适合大量存储,总存储量可以达到的PB、EB级HDFS适合大文件,单个文件一般在百MB级以上文件数目适中3、流式数据访问,最高效的访问模式是一次写入、多次读取HDFS适合用于处理批量,而不适合随机定位访问HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时