Spark合并输出小文件

qq_77101 13 0 PDF 2021-02-01 00:02:35

在Spark SQL执行etl时候会有最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害: HDFS有最大文件数限制浪费磁盘资源(可能存在空文件) Hive中进行统计,计算的时候,会产生很多个map,影响计算的速度方法一:通过spark的coalesce()方法和repartition()方法 val rdd2 = rdd1.coalesce(8, true) (true表示是否shuffle) val rdd3 = rdd1.repartition(8) 说明: coalesce:coalesce()方法的作用是返回指定一个新的指定分区的Rdd,如果是生成一个窄依赖的结果

用户评论

暂无评论

TXT文件合并

TXT file merge

36 2019-06-27
VB文件合并

用 VB 制作，将两个文件合并成一个文件，并添加密码。主文件不受影响，但是音量增加了。

30 2019-06-21
flv文件合并

多个flv文件连接合并为一个flv文件，不需要经过任何其他格式的转换，直接合并，速度极快。特别适合于处理从各视频网站下载下来的分段flv视频。

45 2018-12-09
文件合并助手

用于单片机字库或图库等文件的合并，合并后的文件可下载至单片机内

50 2018-12-09
DBF文件合并

可以对多个同名称的DBF文件进行合并

74 2018-12-09
PDF文件合并

PDF文件合并

47 2019-04-05
合并excel文件

用delphi将excel合并起来，不用麻烦一个文件一个文件打开做。

25 2019-07-24
pdf文件合并

DF合并工具：PDFBinder1.2绿色便携版————————————————PDFBinder是一个极为简便的PDF合并软件，直接运行PDFBinder.exe即可，但是需要.NETFramewo

35 2019-07-19
DFX文件合并

多个DFX文件，通过软件可以合并成一个文件，文件较小。

22 2019-09-14
合并文件.zip

最近需要对一批文件进行合并，本来想挨个复制、粘贴的，可发现有上百个文件，想想还是放弃了，于是就想自己写个合并文件的小工具。这个小工具可以制定要合并哪个文件夹下的文件，然后会将该文件夹下的所有文件显示在

37 2019-09-20

Spark合并输出小文件

用户评论

推荐下载