Linux系统安装PySpark详细教程

想要在Linux系统上使用PySpark进行大数据处理？本教程将为您提供详细的安装步骤，助您快速上手。

PySpark依赖于Java环境，首先需要安装Java。执行以下命令：

sudo apt-get update
sudo apt-get install default-jdk

您可以从Spark官网下载最新版本的Spark，或使用以下命令下载：

wget https://apache.claz.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

使用以下命令解压Spark压缩包：

tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz

将Spark的bin目录添加到PATH环境变量中，方便后续使用。执行以下命令：

export PATH=$PATH:/path/to/spark/bin

请将 /path/to/spark/bin 替换为您实际解压Spark的路径。

为了使环境变量配置永久生效，可以将上述命令添加到 ~/.bashrc 文件末尾。

使用pip命令安装PySpark：

pip install pyspark

打开Python解释器，输入以下代码测试PySpark是否安装成功：

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('test').getOrCreate()

如果没有报错，说明PySpark安装成功！