Python Spark 统计文本文件数据频率

日期: 2027-08-10
标签: 常规

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate() lines = spark.read.text('data01.txt').rdd res = lines.map(lambda x: x.value.split(',')).map(lambda x: (x[0], 1)) result = res.reduceByKey(lambda x, y: x + y) result.collect()

原文地址: https://www.cveoy.top/t/topic/kKr 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: 代码错误分析：未定义函数和变量、注释代码及数组长度问题
下一篇: 转录组、蛋白组和代谢组差异分析技术路线详解