Windows 上 PySpark 安装教程:详细步骤及测试
以下是在 Windows 操作系统上安装 PySpark 的详细步骤:
-
安装 Java Development Kit (JDK)。PySpark 需要 Java 环境才能运行。您可以从 Oracle 官网下载并安装 JDK。
-
下载并安装 Apache Spark。您可以从 Apache Spark 官网下载并解压缩。
-
设置环境变量。在系统环境变量中添加 SPARK_HOME 和 PYSPARK_PYTHON 变量。SPARK_HOME 变量应该指向 Apache Spark 安装目录的路径,PYSPARK_PYTHON 变量应该指向 Python 解释器的路径。例如:
SPARK_HOME=C:\spark-3.0.1-bin-hadoop2.7
PYSPARK_PYTHON=C:\Python\python.exe
- 安装 pyspark。可以使用 pip 命令在命令行中安装 pyspark:
pip install pyspark
- 测试安装。在 Python 解释器中输入以下代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('test').getOrCreate()
df = spark.read.csv('file.csv', header=True)
df.show()
如果可以成功读取并显示文件中的数据,则说明 PySpark 已经成功安装并可以使用。
原文地址: https://www.cveoy.top/t/topic/gxev 著作权归作者所有。请勿转载和采集!