SparkSQL 数据导出为 CSV 文件到当前目录
在 SparkSQL 中将数据导出为 CSV 文件到当前目录下,可以按照以下步骤操作:
-
将 SparkSQL 中的 DataFrame 转换为 RDD,并使用 map 方法将每行记录转换为 CSV 格式的字符串。
-
使用 saveAsTextFile 方法将 RDD 保存为文本文件。
-
将保存的文本文件重命名为 CSV 文件。
以下是示例代码:
// 将 DataFrame 转换为 RDD,并将每行记录转换为 CSV 格式的字符串
val csvRdd = df.rdd.map(row => row.mkString(","))
// 保存 RDD 为文本文件
csvRdd.saveAsTextFile("file:///path/to/csvfile")
// 将保存的文本文件重命名为 CSV 文件
val fs = FileSystem.get(sc.hadoopConfiguration)
fs.rename(new Path("file:///path/to/csvfile/part-00000"), new Path("file:///path/to/csvfile.csv"))
在以上代码中,需要将 'file/to/path' 替换为实际的文件路径。另外,需要在代码中引入 org.apache.hadoop.fs.FileSystem 类来重命名文件。
原文地址: https://www.cveoy.top/t/topic/oarj 著作权归作者所有。请勿转载和采集!