1. 首先需要在 Spark-shell 中导入 PostgreSQL 的 JDBC 驱动,可以使用以下命令:
spark-shell --jars /path/to/postgresql-jdbc-driver.jar
  1. 接着,需要创建一个 SparkSession 对象,用于连接 PostgreSQL 数据库:
val spark = SparkSession.builder()
  .appName('Spark SQL Postgres Example')
  .config('spark.master', 'local')
  .getOrCreate()

val jdbcUrl = 'jdbc:postgresql://localhost:5432/mydatabase'
val connectionProperties = new Properties()
connectionProperties.setProperty('user', 'myuser')
connectionProperties.setProperty('password', 'mypassword')
  1. 使用 SparkSession 对象读取 PostgreSQL 表 A 的数据,并对 x 字段求平均值:
val df = spark.read.jdbc(jdbcUrl, 'A', connectionProperties)
val avg = df.select(avg('x')).first().getDouble(0)
println(s'The average value of x is: $avg')

其中,avg('x') 表示对 x 字段求平均值,first() 获取第一行数据(因为只有一行),getDouble(0) 获取第一列的值。

Spark-shell 中计算 PostgreSQL 表 A 的 x 字段平均值

原文地址: https://www.cveoy.top/t/topic/lyPw 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录