1. PySpark 是一个'分布式'处理框架。

  2. 在 PySpark 中,使用'parallelize' 来创建 RDD。

  3. 在 PySpark 中,使用'map' 函数来对 RDD 进行转换。

  4. 在 PySpark 中,使用'filter' 函数来对 RDD 进行过滤。

  5. 在 PySpark 中,使用'reduce' 函数来对 RDD 进行聚合操作。

  6. 在 PySpark 中,使用'groupByKey' 函数来对 RDD 进行分组操作。

  7. 在 PySpark 中,使用'sortBy' 函数来对 RDD 进行排序操作。

  8. 在 PySpark 中,使用'distinct' 函数来对 RDD 进行去重操作。

  9. 在 PySpark 中,使用'union' 函数来将两个 RDD 合并。

  10. 在 PySpark 中,使用'cache' 函数来对 RDD 进行持久化。

  11. 在 PySpark 中,使用'sample' 函数来对 RDD 进行随机抽样操作。

  12. 在 PySpark 中,使用'join' 函数来对 RDD 进行连接操作。

  13. 在 PySpark 中,使用'intersection' 函数来对 RDD 进行交集操作。

  14. 在 PySpark 中,使用'subtract' 函数来对 RDD 进行差集操作。

  15. 在 PySpark 中,使用'cartesian' 函数来对 RDD 进行笛卡尔积操作。

PySpark 填空题练习:15 道测试你的 PySpark 知识

原文地址: https://www.cveoy.top/t/topic/jpIX 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录