sparkRDD 编程解决数据分析数据库课程平均分数
假设我们有一个数据集,包含每个学生在数据库课程中的成绩。数据集的格式如下:
student_id,score
1,80
2,90
3,75
4,85
5,95
6,70
7,80
8,90
9,85
10,75
我们可以使用 Spark RDD 编程来解决这个问题,以下是代码实现:
from pyspark import SparkContext, SparkConf
# 创建 SparkContext
conf = SparkConf().setAppName("DatabaseScores")
sc = SparkContext.getOrCreate(conf)
# 加载数据集
data = sc.textFile("scores.csv")
# 将数据集转换为键值对 RDD,其中键为学生 ID,值为成绩
scores = data.map(lambda x: x.split(",")).map(lambda x: (int(x[0]), int(x[1])))
# 计算平均分数
avg_score = scores.map(lambda x: x[1]).mean()
# 输出结果
print("Average score for database course: {:.2f}".format(avg_score))
首先,我们创建了一个 SparkContext 对象。然后,我们使用 textFile() 方法加载数据集。接着,我们使用 map() 方法将数据集转换为键值对 RDD,其中键为学生 ID,值为成绩。最后,我们使用 mean() 方法计算平均分数,并输出结果。
需要注意的是,这个例子中的代码是在本地模式下运行的。如果需要在分布式模式下运行代码,需要将代码部署到 Spark 集群中。
原文地址: http://www.cveoy.top/t/topic/bszJ 著作权归作者所有。请勿转载和采集!