sparkRDD 编程解决数据分析sctxt中总共有多少个100分
以下是一个基于Spark RDD编程的解决方案:
- 创建SparkContext对象
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("100分统计").setMaster("local")
sc = SparkContext(conf=conf)
- 读取sc.txt文件并创建RDD对象
data = sc.textFile("sc.txt")
- 将每一行数据按空格分割,并转换为整数类型的RDD对象
scores = data.flatMap(lambda line: line.split(" ")).map(lambda score: int(score))
- 使用filter函数筛选出所有分数为100的元素
perfect_scores = scores.filter(lambda score: score == 100)
- 使用count函数统计100分的个数
count = perfect_scores.count()
print("总共有{}个100分".format(count))
完整代码:
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("100分统计").setMaster("local")
sc = SparkContext(conf=conf)
data = sc.textFile("sc.txt")
scores = data.flatMap(lambda line: line.split(" ")).map(lambda score: int(score))
perfect_scores = scores.filter(lambda score: score == 100)
count = perfect_scores.count()
print("总共有{}个100分".format(count))
sc.stop()
原文地址: http://www.cveoy.top/t/topic/bsBB 著作权归作者所有。请勿转载和采集!