Hadoop 是一个分布式计算框架,用于存储和处理大规模数据集。本文将详细介绍 Hadoop 集群的搭建步骤,涵盖从环境准备到集群启动和验证的完整流程。

环境准备

在搭建 Hadoop 集群之前,需要准备以下环境:

  1. 操作系统: 推荐使用 Linux 操作系统,例如 CentOS、Ubuntu 等。
  2. JDK: 需要安装 Java Development Kit (JDK)。
  3. SSH: 需要在所有节点上配置 SSH,以便节点之间可以相互通信。
  4. Hadoop: 需要下载 Hadoop 软件包,并解压缩到每个节点上。

搭建步骤

  1. 配置 SSH

在所有节点上配置 SSH,以便节点之间可以相互通信。可以使用以下命令生成 SSH 密钥:

ssh-keygen -t rsa

然后将公钥复制到其他节点上:

ssh-copy-id user@node2
ssh-copy-id user@node3
...
  1. 安装 JDK

在所有节点上安装 JDK,可以使用以下命令在 Ubuntu 上安装 OpenJDK:

sudo apt-get update
sudo apt-get install openjdk-8-jdk
  1. 下载 Hadoop 软件包

从 Hadoop 官网下载最新的 Hadoop 软件包,例如 hadoop-3.2.2.tar.gz。

  1. 解压 Hadoop 软件包

在所有节点上解压 Hadoop 软件包,并将解压后的文件夹移动到 /opt 目录下:

sudo tar -xzvf hadoop-3.2.2.tar.gz
sudo mv hadoop-3.2.2 /opt/hadoop
  1. 配置 Hadoop 环境变量

在所有节点上配置 Hadoop 环境变量,将以下代码添加到 /etc/profile 文件的末尾:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后运行以下命令使环境变量生效:

source /etc/profile
  1. 配置 Hadoop 集群

在主节点上配置 Hadoop 集群,需要编辑以下文件:

  • (1) /opt/hadoop/etc/hadoop/core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>
  • (2) /opt/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>
  • (3) /opt/hadoop/etc/hadoop/mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
  • (4) /opt/hadoop/etc/hadoop/yarn-site.xml
<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
  1. 启动 Hadoop 集群

在主节点上启动 Hadoop 集群,可以使用以下命令:

start-dfs.sh
start-yarn.sh
  1. 验证 Hadoop 集群
  • 在浏览器中输入 http://master:50070,可以查看 Hadoop 集群的状态。
  • 在浏览器中输入 http://master:8088,可以查看 YARN 资源管理器的状态。
  • 在命令行中输入以下命令,可以验证 Hadoop 集群是否正常工作:
hdfs dfs -mkdir /test
hdfs dfs -ls /

以上是 Hadoop 集群的完整搭建方案,希望能帮助您快速搭建并使用 Hadoop 集群。

Hadoop 集群搭建教程:完整方案与步骤

原文地址: https://www.cveoy.top/t/topic/jDaE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录