首先,需要连接到PostgreSQL数据库并加载表A到Spark DataFrame中:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("PostgreSQLIntegration").getOrCreate()

jdbc_url = "jdbc:postgresql://localhost:5432/mydatabase"
connection_properties = {"user": "myuser", "password": "mypassword"}

df = spark.read.jdbc(url=jdbc_url, table="A", properties=connection_properties)

然后,可以使用Spark SQL的API来计算B维度的C平均值:

from pyspark.sql.functions import avg

avg_c = df.groupBy("B").agg(avg("C").alias("avg_c")).orderBy("avg_c", ascending=False)

最后,按照C平均值从大到小排序输出结果:

avg_c.show()
用pyspark计算postgresql的表A的B维度的C平均值,并按C平均值从大到小排序。

原文地址: http://www.cveoy.top/t/topic/mGf 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录