出5道关于Spark Dataframe相关的几道论述题并给出答案

优势：

劣势：

可以使用withColumn方法，在原有的Dataframe基础上添加一列。例如：

val df = spark.read.json("path/to/json")
val newDf = df.withColumn("newColumn", col("oldColumn") + 1)

这个例子中，我们在原有的Dataframe中添加了一个名为newColumn的列，该列的值为oldColumn加1。

可以使用write方法将Dataframe保存为Parquet文件。例如：

val df = spark.read.json("path/to/json")
df.write.parquet("path/to/parquet")

这个例子中，我们将读取的json文件保存为Parquet文件。

Spark Dataframe中的缓存是指将Dataframe的数据存储在内存中，以便后续的操作可以更快地访问数据。可以使用cache或persist方法将Dataframe缓存到内存中。例如：

val df = spark.read.json("path/to/json")
df.cache()

这个例子中，我们将读取的json文件缓存到内存中。

可以使用groupBy和agg方法进行聚合操作。例如：

val df = spark.read.json("path/to/json")
val result = df.groupBy("name").agg(sum("age"), avg("score"))

这个例子中，我们根据name列进行分组，然后对age列求和，对score列求平均值。最终得到的结果是一个新的Dataframe，包含name、sum(age)和avg(score)三列