Ubuntu 上搭建 Hadoop 集群的完整指南
Hadoop 是一个分布式计算框架,可以在多台服务器上并行处理大数据。以下是在 Ubuntu 系统上搭建 Hadoop 集群的步骤:
- 安装 Java
Hadoop 需要 Java 环境,可以通过以下命令安装 Java:
sudo apt-get install openjdk-8-jdk
- 下载和解压 Hadoop
从 Hadoop 官网下载最新版本的 Hadoop,并解压到一个目录中:
tar -xzvf hadoop-3.3.0.tar.gz
- 配置 Hadoop
进入 Hadoop 目录并编辑配置文件:
cd hadoop-3.3.0
编辑 hadoop-env.sh
文件:
nano etc/hadoop/hadoop-env.sh
将 JAVA_HOME
变量设置为 Java 安装路径:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
接下来编辑 core-site.xml
文件:
nano etc/hadoop/core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
然后编辑 hdfs-site.xml
文件:
nano etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/hadoop/hadoop_data/hdfs/datanode</value>
</property>
</configuration>
最后编辑 mapred-site.xml
文件:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
nano etc/hadoop/mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 配置 SSH 免密登录
在所有节点上安装 openssh-server
和 openssh-client
:
sudo apt-get install openssh-server openssh-client
然后在主节点上生成 SSH 密钥:
ssh-keygen -t rsa
将公钥复制到所有节点上:
ssh-copy-id username@node1
ssh-copy-id username@node2
ssh-copy-id username@node3
测试是否免密登录成功:
ssh username@node1
- 启动 Hadoop 集群
在主节点上启动 Hadoop:
sbin/start-dfs.sh
sbin/start-yarn.sh
可以通过以下命令查看是否启动成功:
jps
会显示出以下进程:
14588 SecondaryNameNode
14431 NameNode
14678 ResourceManager
14815 Jps
14739 NodeManager
现在 Hadoop 集群已经搭建完成,可以通过 Web 界面查看集群状态:
- http://localhost:9870/ (NameNode)
- http://localhost:8088/ (ResourceManager)

原文地址: http://www.cveoy.top/t/topic/j 著作权归作者所有。请勿转载和采集!