要在 SparkSQL 中读取文件并创建表,首先需要在 SparkSession 中创建一个 SparkSQL 上下文。然后,使用 SparkSession 的 read 方法读取文件并将其加载到 DataFrame 中。最后,使用 DataFrame 的 createOrReplaceTempView 方法创建一个临时表。

以下是一个示例代码,演示如何读取文件并创建一个名为'movies'的表:

import org.apache.spark.sql.SparkSession

// 创建 SparkSession
val spark = SparkSession.builder()
  .appName("Create Movies Table")
  .master("local")
  .getOrCreate()

// 读取文件并加载到 DataFrame
val moviesDF = spark.read
  .format("csv")
  .option("header", "true")
  .load("/path/to/movies.csv") // 替换为实际文件路径

// 创建临时表
moviesDF.createOrReplaceTempView("movies")

// 测试查询
val result = spark.sql("SELECT * FROM movies LIMIT 10")
result.show()

请确保将'/path/to/movies.csv'替换为实际的文件路径。此示例假设文件是以 CSV 格式存储的,且第一行包含列名。如果文件格式或结构不同,请相应地调整读取选项和查询语句。

SparkSQL 读取文件并创建表:以 movies 表为例

原文地址: https://www.cveoy.top/t/topic/o6AU 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录