以下是在 Windows 操作系统上安装 PySpark 的详细步骤:

  1. 安装 Java Development Kit (JDK)。PySpark 需要 Java 环境才能运行。您可以从 Oracle 官网下载并安装 JDK。

  2. 下载并安装 Apache Spark。您可以从 Apache Spark 官网下载并解压缩。

  3. 设置环境变量。在系统环境变量中添加 SPARK_HOME 和 PYSPARK_PYTHON 变量。SPARK_HOME 变量应该指向 Apache Spark 安装目录的路径,PYSPARK_PYTHON 变量应该指向 Python 解释器的路径。例如:

SPARK_HOME=C:\spark-3.0.1-bin-hadoop2.7
PYSPARK_PYTHON=C:\Python\python.exe
  1. 安装 pyspark。可以使用 pip 命令在命令行中安装 pyspark:
pip install pyspark
  1. 测试安装。在 Python 解释器中输入以下代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('test').getOrCreate()
df = spark.read.csv('file.csv', header=True)
df.show()

如果可以成功读取并显示文件中的数据,则说明 PySpark 已经成功安装并可以使用。

Windows 上 PySpark 安装教程:详细步骤及测试

原文地址: https://www.cveoy.top/t/topic/gxev 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录