rdd的action行动算子
RDD(弹性分布式数据集)是Spark的核心数据结构,它是一个不可变的分布式对象集合。RDD提供了两类操作:转换(Transformation)和行动(Action)。
行动算子是RDD的操作,它触发实际计算并返回结果或将结果保存到外部存储系统中。以下是RDD的一些常见行动算子:
collect(): 将RDD中的所有元素收集到驱动程序中,并以数组的形式返回结果。count(): 返回RDD中元素的个数。first(): 返回RDD中的第一个元素。take(n): 返回RDD中的前n个元素。takeSample(withReplacement, num, [seed]): 从RDD中随机采样出num个元素,并返回一个数组。reduce(func): 使用指定的二元操作符对RDD中的元素进行聚合,返回单个结果值。foreach(func): 对RDD中的每个元素应用指定的函数。
上述行动算子是RDD的一部分,它们在调用时会立即执行计算并返回结果。这些行动算子可以帮助用户以不同的方式处理和操作RDD中的数据
原文地址: http://www.cveoy.top/t/topic/h7ps 著作权归作者所有。请勿转载和采集!