SparkSQL 读取文件并创建表:以 movies 表为例
要在 SparkSQL 中读取文件并创建表,首先需要在 SparkSession 中创建一个 SparkSQL 上下文。然后,使用 SparkSession 的 read 方法读取文件并将其加载到 DataFrame 中。最后,使用 DataFrame 的 createOrReplaceTempView 方法创建一个临时表。
以下是一个示例代码,演示如何读取文件并创建一个名为'movies'的表:
import org.apache.spark.sql.SparkSession
// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Create Movies Table")
.master("local")
.getOrCreate()
// 读取文件并加载到 DataFrame
val moviesDF = spark.read
.format("csv")
.option("header", "true")
.load("/path/to/movies.csv") // 替换为实际文件路径
// 创建临时表
moviesDF.createOrReplaceTempView("movies")
// 测试查询
val result = spark.sql("SELECT * FROM movies LIMIT 10")
result.show()
请确保将'/path/to/movies.csv'替换为实际的文件路径。此示例假设文件是以 CSV 格式存储的,且第一行包含列名。如果文件格式或结构不同,请相应地调整读取选项和查询语句。
原文地址: https://www.cveoy.top/t/topic/o6AU 著作权归作者所有。请勿转载和采集!