Ubuntu 上搭建 Hadoop 集群的完整指南

Hadoop 是一个分布式计算框架，可以在多台服务器上并行处理大数据。以下是在 Ubuntu 系统上搭建 Hadoop 集群的步骤：

安装 Java

Hadoop 需要 Java 环境，可以通过以下命令安装 Java：

sudo apt-get install openjdk-8-jdk

下载和解压 Hadoop

从 Hadoop 官网下载最新版本的 Hadoop，并解压到一个目录中：

tar -xzvf hadoop-3.3.0.tar.gz

配置 Hadoop

进入 Hadoop 目录并编辑配置文件：

cd hadoop-3.3.0

编辑 hadoop-env.sh 文件：

nano etc/hadoop/hadoop-env.sh

将 JAVA_HOME 变量设置为 Java 安装路径：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

接下来编辑 core-site.xml 文件：

nano etc/hadoop/core-site.xml

添加以下内容：

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

然后编辑 hdfs-site.xml 文件：

nano etc/hadoop/hdfs-site.xml

添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/hadoop_data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/hadoop_data/hdfs/datanode</value>
    </property>
</configuration>

最后编辑 mapred-site.xml 文件：

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
nano etc/hadoop/mapred-site.xml

添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置 SSH 免密登录

在所有节点上安装 openssh-server 和 openssh-client：

sudo apt-get install openssh-server openssh-client

然后在主节点上生成 SSH 密钥：

ssh-keygen -t rsa

将公钥复制到所有节点上：

ssh-copy-id username@node1
ssh-copy-id username@node2
ssh-copy-id username@node3

测试是否免密登录成功：

ssh username@node1

启动 Hadoop 集群

在主节点上启动 Hadoop：

sbin/start-dfs.sh
sbin/start-yarn.sh

可以通过以下命令查看是否启动成功：

jps

会显示出以下进程：

14588 SecondaryNameNode
14431 NameNode
14678 ResourceManager
14815 Jps
14739 NodeManager

现在 Hadoop 集群已经搭建完成，可以通过 Web 界面查看集群状态：

http://localhost:9870/ （NameNode）
http://localhost:8088/ （ResourceManager）