hive中当数据量比较大且需要排序的时候如何用sort by 去优化order by且保证结果相同呢分区数如何设置最好？

当数据量比较大且需要排序时，使用sort by可以优化order by的性能。sort by会在map端对每个分区进行排序，然后将结果汇总到reduce端进行最终排序。而order by则需要将所有数据都传输到reduce端进行排序，因此速度较慢。

为了保证结果相同，需要在sort by中指定分区数，并且分区数需要与order by中的分区数相同。可以使用以下语句设置分区数：

SET hive.exec.reducers.max=<分区数>;

分区数的设置需要考虑到数据量和集群的资源情况，一般建议将分区数设置为节点数的2-3倍。如果分区数设置过多，会导致每个分区的数据量过小，影响排序性能；如果分区数设置过少，会导致每个分区的数据量过大，影响并行度。

总之，根据数据量和集群资源情况，合理设置分区数可以提高sort by的性能，并且保证结果相同。