用pyspark计算postgresql的表A的B维度的C平均值,并按C平均值从大到小排序。
首先,需要连接到PostgreSQL数据库并加载表A到Spark DataFrame中:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("PostgreSQLIntegration").getOrCreate()
jdbc_url = "jdbc:postgresql://localhost:5432/mydatabase"
connection_properties = {"user": "myuser", "password": "mypassword"}
df = spark.read.jdbc(url=jdbc_url, table="A", properties=connection_properties)
然后,可以使用Spark SQL的API来计算B维度的C平均值:
from pyspark.sql.functions import avg
avg_c = df.groupBy("B").agg(avg("C").alias("avg_c")).orderBy("avg_c", ascending=False)
最后,按照C平均值从大到小排序输出结果:
avg_c.show()
原文地址: http://www.cveoy.top/t/topic/mGf 著作权归作者所有。请勿转载和采集!