更新于 

安装部署Hadoop

检查Hadoop

检查当前环境是否安装了Hadoop

如果安装了Hadoop,则期望输出如下

1
2
3
4
5
Hadoop 2.10.2
Subversion Unknown -r 965fd380006fa78b2315668fbc7eb432e1d8200f
Compiled by ubuntu on 2022-05-24T22:35Z
Compiled with protoc 2.5.0
From source with checksum d3ab737f7788f05d467784f0a86573fe

如果系统中未安装Hadoop,则可按照如下步骤进行安装

获取下载链接

前往官网获取所需版本的Hadoop下载链接

选择相应版本的二进制文件,获取链接

这里以2.10.2版本为例

伪分布式安装Hadoop

解压缩Hadoop

使用wget下载Hadoop压缩包

如果没有wget,可以使用如下命令进行安装

解压下载的压缩包

新建bash_profile文件,写入对应环境变量,其中HADOOP_HOME为上一步解压路径

1
2
3
4
5
6
7
8
# hadoop enviroment
export HADOOP_HOME=/home/user/hadoop/hadoop-2.10.2
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

执行如下命令使环境变量生效

配置Hadoop

$HADOOP_HOME/etc/hadoop中修改Hadoop的配置文件

修改文件 hadoop-env.sh

在对应位置修改JAVA路径为本机JAVA路径

修改文件 core-site.xml

打开core-site.xml文件并在<configuration>,</configuration>标签之间添加以下属性

1
2
3
4
5
6
7
8
<configuration>

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

</configuration>
修改文件 hdfs-site.xml

打开hdfs-site.xml文件并设置复制数据的份数,名称节点的路径,本地文件系统的数据节点的路径。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/user/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/user/hadoop/tmp/dfs/data</value>
</property>
</configuration>
修改文件 yarn-site.xml

打开yarn-site.xml文件并配置yarn到Hadoop。

1
2
3
4
5
6
7
8
<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>
修改文件 mapred-site.xml

此文件用于指定我们正在使用的MapReduce框架。缺省情况下,包含 yarn-site.xml模板。

首先,需要将文件从模板复制

再打开mapred-site.xml添加如下属性

1
2
3
4
5
6
7
8
<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

</configuration>

测试Hadoop

首先,格式化Hadoop

并启动dfs和yarn

访问对应端口,查看运行情况