Hive 中 4 种 BY 子句详解：GROUP BY、ORDER BY、DISTRIBUTE BY 和 CLUSTER BY

在 Hive 中，有四个主要的 BY 子句可以用于对数据进行分组和排序：

SELECT department, SUM(sales)
FROM table_name
GROUP BY department;

SELECT column_name
FROM table_name
ORDER BY sales DESC;

DISTRIBUTE BY 子句：用于指定数据在 Reducer 节点上的分布方式。它可以将数据按照指定的列进行分区，以便在 Reducer 节点上进行并行处理。例如，按照部门进行分区。

SELECT column_name
FROM table_name
DISTRIBUTE BY department;

CLUSTER BY 子句：用于指定数据在 Reducer 节点上的排序方式。它可以将数据按照指定的列进行排序，并在 Reducer 节点上进行数据的局部排序。例如，按照销售额进行排序。

SELECT column_name
FROM table_name
CLUSTER BY sales;

这些子句可以单独使用，也可以组合在一起使用，以实现更复杂的分组和排序操作。