Spark SQL 操作:构建 SparkSession 和创建 Spark 对象
在 Spark 中,可以使用 'SparkSession' 来构建 'Spark' 对象,用于 'Spark SQL' 操作。
首先,需要导入 spark 相关的库:
from pyspark.sql import SparkSession
然后,可以使用 'SparkSession.builder' 来构建 'SparkSession' 对象:
spark = SparkSession.builder.appName('Spark SQL Example').getOrCreate()
在上述代码中,'appName' 是指定应用程序的名称,'getOrCreate' 方法用于获取或创建一个 'SparkSession' 对象。
接下来,就可以使用 'spark' 对象进行 'Spark SQL' 操作了。例如,可以通过 'read' 方法读取数据,并使用 'SQL' 语句进行查询:
df = spark.read.format('csv').option('header', 'true').load('data.csv')
df.createOrReplaceTempView('people')
result = spark.sql('SELECT * FROM people WHERE age >= 30')
在上述代码中,首先使用 'read' 方法从 CSV 文件中读取数据,然后使用 'createOrReplaceTempView' 方法创建一个临时视图,最后使用 'sql' 方法执行 'SQL' 查询。
注意,以上只是一个简单的例子,实际使用中可能需要根据具体需求进行调整。
原文地址: https://www.cveoy.top/t/topic/pr4j 著作权归作者所有。请勿转载和采集!