在spark中如何将一个叫yourfilecsv并且夹包含CSV文件的分片的文件夹合并成一个csv文件

日期: 2028-05-09

标签: 科技

可以使用以下代码在Spark中将一个名为yourfile.csv并且包含CSV文件的分片的文件夹合并成一个CSV文件：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder().appName("Merge CSV Files").getOrCreate()

val path = "yourfile.csv" // 文件夹路径

val df = spark.read.option("header", "true").csv(path + "/*.csv") // 读取所有CSV文件并合并为一个DataFrame

df.coalesce(1).write.option("header", "true").csv("merged.csv") // 将DataFrame写入单个CSV文件

上述代码中，首先创建了一个SparkSession对象，然后读取了文件夹中的所有CSV文件并合并成一个DataFrame。然后使用coalesce(1)函数将DataFrame合并为一个分区，并使用write函数将其写入一个CSV文件。在write函数中，我们还设置了header选项为true，以保留CSV文件的列名。最后，生成的CSV文件将保存在当前目录下的merged.csv文件中

在spark中如何将一个叫yourfilecsv并且夹包含CSV文件的分片的文件夹合并成一个csv文件

原文地址: https://www.cveoy.top/t/topic/fiRQ 著作权归作者所有。请勿转载和采集!