Spark高手必备技巧：如何有效减少小文件数量-个人在线分享

目前手动减少的简单方式分写Hive和写Iceberg两种情况讨论：

开启优化项

spark.sql.optimizer.insertRepartitionBeforeWrite.enabled=true

合并分区的大小设大点，例如 1G，通常不需要配置
```
spark.sql.adaptive.coalescePartitions.minPartitionNum=1
```

默认分区大小，例如 256M

spark.sql.adaptive.advisoryPartitionSizeInBytes=64M

iceberg可以开启自动小文件合并，除此之外的手动合并：

rdd.repartition(100)
rdd.coalesce(100)

repartition 与 coalesce 的区别是 repartition 会产生 shuffle，coalesce 不会。repartition 可能造成 shuffle 失败和空间重复，coalesce 则可能导致原有计算逻辑的并行度被改变。例如：

reduceByKey(key).coalesce(10) //reduceByKey 的并行度被改为 10，需要详细评估使用

2.SQL 中使用 Hint 🧠

insert into sinkTable
select /*+ REPARTITION(3, col) */ * from sourceTable

insert into sinkTable select * from sourceTable distribute by cast(rand() * 100 as int)

这种方式不推荐，因为打的分区不均匀，而且可能导致压缩程度不理想。

Spark高手必备技巧：如何有效减少小文件数量