Python: 将CSV文件内容输出到HDFS路径
要在HDFS路径输出CSV文件,您可以使用PySpark中的DataFrame API和Hadoop FileSystem API。以下是一个示例代码片段:
from pyspark.sql import SparkSession
# 创建Spark会话
spark = SparkSession.builder.appName('Output CSV to HDFS').getOrCreate()
# 读取CSV文件
df = spark.read.csv('/path/to/input.csv', header=True)
# 将DataFrame写入HDFS路径
output_path = '/path/to/output.csv'
fs = spark.sparkContext._jvm.org.apache.hadoop.fs.FileSystem.get(spark.sparkContext._jsc.hadoopConfiguration())
output_stream = fs.create(spark._jvm.org.apache.hadoop.fs.Path(output_path))
df.write.csv(output_stream)
# 关闭Spark会话
spark.stop()
请注意,您需要将'/path/to/input.csv'替换为实际的CSV文件路径,并将'/path/to/output.csv'替换为您要输出的HDFS路径。
此外,如果您想在CSV文件中包括标题行,请将'header=True'传递给'read.csv'方法。如果CSV文件没有标题行,则将其设置为'header=False'。
原文地址: https://www.cveoy.top/t/topic/loEq 著作权归作者所有。请勿转载和采集!