假设我们有一个数据集,包含每个学生在数据库课程中的成绩。数据集的格式如下:

student_id,score
1,80
2,90
3,75
4,85
5,95
6,70
7,80
8,90
9,85
10,75

我们可以使用 Spark RDD 编程来解决这个问题,以下是代码实现:

from pyspark import SparkContext, SparkConf

# 创建 SparkContext
conf = SparkConf().setAppName("DatabaseScores")
sc = SparkContext.getOrCreate(conf)

# 加载数据集
data = sc.textFile("scores.csv")

# 将数据集转换为键值对 RDD,其中键为学生 ID,值为成绩
scores = data.map(lambda x: x.split(",")).map(lambda x: (int(x[0]), int(x[1])))

# 计算平均分数
avg_score = scores.map(lambda x: x[1]).mean()

# 输出结果
print("Average score for database course: {:.2f}".format(avg_score))

首先,我们创建了一个 SparkContext 对象。然后,我们使用 textFile() 方法加载数据集。接着,我们使用 map() 方法将数据集转换为键值对 RDD,其中键为学生 ID,值为成绩。最后,我们使用 mean() 方法计算平均分数,并输出结果。

需要注意的是,这个例子中的代码是在本地模式下运行的。如果需要在分布式模式下运行代码,需要将代码部署到 Spark 集群中。

sparkRDD 编程解决数据分析数据库课程平均分数

原文地址: http://www.cveoy.top/t/topic/bszJ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录