spark的rdd五大属性是什么?
-
分区数(Partitions):RDD是分布式的,数据会分散在不同的节点上。分区数就是指RDD被分成的子集的数量。
-
依赖关系(Dependencies):RDD之间的依赖关系是指一个RDD如何从另一个RDD派生出来的。依赖关系分为窄依赖和宽依赖。
-
分区器(Partitioner):RDD的分区器是指数据在分布式环境中如何划分到不同的分区中。分区器决定了数据在不同节点上的分布情况。
-
计算函数(Compute function):RDD的计算函数是指对RDD数据进行转换、处理和操作的函数,例如map、reduce等函数都是计算函数。
-
持久化级别(Persistence level):RDD的持久化级别是指对RDD数据进行持久化的级别,包括MEMORY_ONLY、MEMORY_ONLY_SER、MEMORY_AND_DISK等多种级别。
原文地址: https://www.cveoy.top/t/topic/bV2c 著作权归作者所有。请勿转载和采集!