SparkSQL 集成 Hive 3.1.2 驱动程序指南
在 Spark 中集成 Hive 3.1.2 的驱动程序,可以使用'spark.sql.hive.version' 属性来指定 Hive 的版本。以下是一个示例代码:
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder()
.appName("Spark Hive Integration")
.config("spark.sql.hive.version", "3.1.2")
.enableHiveSupport()
.getOrCreate()
// 使用 SparkSession 进行 Hive 操作
spark.sql("CREATE TABLE IF NOT EXISTS my_table (id INT, name STRING)")
spark.sql("INSERT INTO my_table VALUES (1, 'John'), (2, 'Jane')")
val df = spark.sql("SELECT * FROM my_table")
df.show()
spark.stop()
在上面的示例中,我们使用'spark.sql.hive.version' 属性指定了 Hive 的版本为 3.1.2。然后,我们通过调用'enableHiveSupport()' 方法启用 Hive 支持,并使用'getOrCreate()' 方法创建一个 SparkSession 实例。
在 SparkSession 中,我们可以使用'spark.sql()' 方法执行 Hive 查询。在示例中,我们创建了一个名为'my_table' 的表,并插入了一些数据。然后,我们使用'SELECT * FROM my_table' 查询表中的数据,并使用'show()' 方法显示结果。
最后,我们调用'spark.stop()' 方法关闭 SparkSession。
请注意,为了使用 Hive,您需要确保 Spark 的'spark-hive' 和'hadoop' 库已正确配置并在 classpath 中可用。
原文地址: https://www.cveoy.top/t/topic/hzVL 著作权归作者所有。请勿转载和采集!