Hadoop 集群搭建教程:完整方案与步骤
Hadoop 是一个分布式计算框架,用于存储和处理大规模数据集。本文将详细介绍 Hadoop 集群的搭建步骤,涵盖从环境准备到集群启动和验证的完整流程。
环境准备
在搭建 Hadoop 集群之前,需要准备以下环境:
- 操作系统: 推荐使用 Linux 操作系统,例如 CentOS、Ubuntu 等。
- JDK: 需要安装 Java Development Kit (JDK)。
- SSH: 需要在所有节点上配置 SSH,以便节点之间可以相互通信。
- Hadoop: 需要下载 Hadoop 软件包,并解压缩到每个节点上。
搭建步骤
- 配置 SSH
在所有节点上配置 SSH,以便节点之间可以相互通信。可以使用以下命令生成 SSH 密钥:
ssh-keygen -t rsa
然后将公钥复制到其他节点上:
ssh-copy-id user@node2
ssh-copy-id user@node3
...
- 安装 JDK
在所有节点上安装 JDK,可以使用以下命令在 Ubuntu 上安装 OpenJDK:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
- 下载 Hadoop 软件包
从 Hadoop 官网下载最新的 Hadoop 软件包,例如 hadoop-3.2.2.tar.gz。
- 解压 Hadoop 软件包
在所有节点上解压 Hadoop 软件包,并将解压后的文件夹移动到 /opt 目录下:
sudo tar -xzvf hadoop-3.2.2.tar.gz
sudo mv hadoop-3.2.2 /opt/hadoop
- 配置 Hadoop 环境变量
在所有节点上配置 Hadoop 环境变量,将以下代码添加到 /etc/profile 文件的末尾:
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后运行以下命令使环境变量生效:
source /etc/profile
- 配置 Hadoop 集群
在主节点上配置 Hadoop 集群,需要编辑以下文件:
- (1) /opt/hadoop/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
- (2) /opt/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/data/datanode</value>
</property>
</configuration>
- (3) /opt/hadoop/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- (4) /opt/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
- 启动 Hadoop 集群
在主节点上启动 Hadoop 集群,可以使用以下命令:
start-dfs.sh
start-yarn.sh
- 验证 Hadoop 集群
- 在浏览器中输入 http://master:50070,可以查看 Hadoop 集群的状态。
- 在浏览器中输入 http://master:8088,可以查看 YARN 资源管理器的状态。
- 在命令行中输入以下命令,可以验证 Hadoop 集群是否正常工作:
hdfs dfs -mkdir /test
hdfs dfs -ls /
以上是 Hadoop 集群的完整搭建方案,希望能帮助您快速搭建并使用 Hadoop 集群。
原文地址: https://www.cveoy.top/t/topic/jDaE 著作权归作者所有。请勿转载和采集!