Spark 中如何调整 GROUP_ID 和分区数量

日期: 2025-08-28

标签: 常规

在 Spark 中，可以通过设置'spark.sql.shuffle.partitions' 属性来改变 GROUP_ID。

GROUP_ID 是在进行聚合操作（如 GROUP BY）时使用的一个标识符，用于指定将数据分组到多少个分区中。默认情况下，GROUP_ID 的数量等于'spark.sql.shuffle.partitions' 属性的值。

可以通过以下方式来修改 GROUP_ID：

在创建 SparkSession 时，通过'spark.sql.shuffle.partitions' 属性来设置 GROUP_ID 的数量。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName('example') \
    .config('spark.sql.shuffle.partitions', 10) \
    .getOrCreate()

在运行时，可以使用'repartition' 或'coalesce' 方法来改变 GROUP_ID 的数量。

# repartition 方法可以将数据重新分区到指定数量的分区中
df.repartition(10)

# coalesce 方法可以将数据合并到指定数量的分区中（不进行数据 shuffle）
df.coalesce(5)

需要注意的是，改变 GROUP_ID 的数量可能会引起数据的重新分区和 shuffle 操作，因此需要谨慎使用，特别是在大数据集上。

原文地址: http://www.cveoy.top/t/topic/bwZn 著作权归作者所有。请勿转载和采集!