Hadoop 平台搭建与 Spark 计算框架使用指南

Hadoop 平台搭建：

安装 Java 环境: Hadoop 需要 Java 环境支持，先安装 Java 开发工具包 (JDK)。
下载 Hadoop: 从官方网站下载 Hadoop 稳定版 (https://hadoop.apache.org/releases.html)。
配置 Hadoop 环境变量: 将 Hadoop 安装目录下的 bin 文件夹添加到系统环境变量中。
配置 Hadoop 配置文件: 在 Hadoop 安装目录下，找到 conf 文件夹，将 hadoop-env.sh.template 文件复制一份并重命名为 hadoop-env.sh，编辑该文件并设置 JAVA_HOME 环境变量。
配置 Hadoop 集群: 在 Hadoop 安装目录下，找到 conf 文件夹，编辑 core-site.xml、hdfs-site.xml、mapred-site.xml 和 yarn-site.xml 等配置文件，配置 Hadoop 集群的基本信息，例如 HDFS 的数据存储位置、MapReduce 的任务分配等。
启动 Hadoop 集群: 在 Hadoop 安装目录下，进入 sbin 文件夹，依次执行 start-dfs.sh、start-yarn.sh 和 mr-jobhistory-daemon.sh start historyserver 命令，启动 Hadoop 集群。

安装和配置 Spark 环境: 从官方网站下载 Spark 稳定版 (https://spark.apache.org/downloads.html)，解压后配置环境变量。
编写 Spark 程序: 使用 Scala、Java 或 Python 等编程语言编写 Spark 程序。常见的 Spark 程序包括 WordCount、Logistic Regression 等算法实现。
提交 Spark 任务: 使用 Spark-submit 命令将 Spark 程序提交到集群中运行。Spark-submit 命令需要指定 Spark 程序的入口类、输入数据路径、输出数据路径等参数。
监控 Spark 任务: 使用 Spark Web UI 可以监控 Spark 任务的运行状况。Spark Web UI 提供了任务运行状态、任务进度、任务日志等信息。