sparkRDD 编程解决数据分析数据库课程平均分数

假设我们有一个数据集，包含每个学生在数据库课程中的成绩。数据集的格式如下：

student_id,score
1,80
2,90
3,75
4,85
5,95
6,70
7,80
8,90
9,85
10,75

我们可以使用 Spark RDD 编程来解决这个问题，以下是代码实现：

from pyspark import SparkContext, SparkConf

# 创建 SparkContext
conf = SparkConf().setAppName("DatabaseScores")
sc = SparkContext.getOrCreate(conf)

# 加载数据集
data = sc.textFile("scores.csv")

# 将数据集转换为键值对 RDD，其中键为学生 ID，值为成绩
scores = data.map(lambda x: x.split(",")).map(lambda x: (int(x[0]), int(x[1])))

# 计算平均分数
avg_score = scores.map(lambda x: x[1]).mean()

# 输出结果
print("Average score for database course: {:.2f}".format(avg_score))

首先，我们创建了一个 SparkContext 对象。然后，我们使用 textFile() 方法加载数据集。接着，我们使用 map() 方法将数据集转换为键值对 RDD，其中键为学生 ID，值为成绩。最后，我们使用 mean() 方法计算平均分数，并输出结果。

需要注意的是，这个例子中的代码是在本地模式下运行的。如果需要在分布式模式下运行代码，需要将代码部署到 Spark 集群中。