RDD(弹性分布式数据集)是Spark的核心数据结构,它是一个不可变的分布式对象集合。RDD提供了两类操作:转换(Transformation)和行动(Action)。

行动算子是RDD的操作,它触发实际计算并返回结果或将结果保存到外部存储系统中。以下是RDD的一些常见行动算子:

  1. collect(): 将RDD中的所有元素收集到驱动程序中,并以数组的形式返回结果。
  2. count(): 返回RDD中元素的个数。
  3. first(): 返回RDD中的第一个元素。
  4. take(n): 返回RDD中的前n个元素。
  5. takeSample(withReplacement, num, [seed]): 从RDD中随机采样出num个元素,并返回一个数组。
  6. reduce(func): 使用指定的二元操作符对RDD中的元素进行聚合,返回单个结果值。
  7. foreach(func): 对RDD中的每个元素应用指定的函数。

上述行动算子是RDD的一部分,它们在调用时会立即执行计算并返回结果。这些行动算子可以帮助用户以不同的方式处理和操作RDD中的数据

rdd的action行动算子

原文地址: http://www.cveoy.top/t/topic/h7ps 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录