使用SparkSession读取Hive表到Pandas DataFrame
在SparkSession中获取Hive Engine并执行pd.read_sql操作,可以按照以下步骤:
-
在创建SparkSession时,添加Hive支持的配置选项,例如:
from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName('myApp') \ .config('spark.sql.catalogImplementation', 'hive') \ .enableHiveSupport() \ .getOrCreate()该配置选项会启用Hive支持,并使用Hive Engine来处理SQL查询。
-
获取Hive Engine的SQLContext对象,例如:
sqlContext = spark.sqlContext该SQLContext对象会使用Hive Engine来执行SQL查询。
-
使用pd.read_sql方法来执行SQL查询,例如:
import pandas as pd query = 'SELECT * FROM my_table' df = pd.read_sql(query, sqlContext)该方法会使用Hive Engine来执行SQL查询,并将结果转换为Pandas DataFrame。
原文地址: https://www.cveoy.top/t/topic/oYII 著作权归作者所有。请勿转载和采集!