4赞

Hadoop2.8.1完全分布式环境搭建过程

作者：jerry613 | 2022-11-29 14:16

本文搭建了一个由三节点（master、slave1、slave2）构成的Hadoop完全分布式集群（区别单节点伪分布式集群），并通过Hadoop分布式计算的一个示例测试集群的正确性。对hadoop分布式环境搭建过程感兴趣的朋友跟随小编一起看看吧

前言

本文搭建了一个由三节点（master、slave1、slave2）构成的Hadoop完全分布式集群（区别单节点伪分布式集群），并通过Hadoop分布式计算的一个示例测试集群的正确性。

本文集群三个节点基于三台虚拟机进行搭建，节点安装的操作系统为Centos7（yum源），Hadoop版本选取为2.8.0。作者也是初次搭建Hadoop集群，其间遇到了很多问题，故希望通过该博客让读者避免。

实验过程

1、基础集群的搭建

目的：获得一个可以互相通信的三节点集群

下载并安装VMware WorkStation Pro（支持快照，方便对集群进行保存）下载地址，产品激活序列号网上自行查找。

下载CentOS7镜像，下载地址。

使用VMware安装master节点（稍后其他两个节点可以通过复制master节点的虚拟机文件创建）。

三个节点存储均为30G默认安装，master节点内存大小为2GB，双核，slave节点内存大小1GB，单核

2、集群网络配置

目的：为了使得集群既能互相之间进行通信，又能够进行外网通信，需要为节点添加两张网卡（可以在虚拟机启动的时候另外添加一张网卡，即网络适配器，也可以在节点创建之后，在VMware设置中添加）。

两张网卡上网方式均采用桥接模式，外网IP设置为自动获取（通过此网卡进行外网访问，配置应该按照你当前主机的上网方式进行合理配置，如果不与主机通信的话可以采用NAT上网方式，这样选取默认配置就行），内网IP设置为静态IP。

本文中的集群网络环境配置如下:

master内网IP：192.168.1.100

slave1内网IP：192.168.1.101

slave2内网IP：192.168.1.102

设置完后，可以通过ping进行网络测试

注意事项：通过虚拟机文件复制，在VMware改名快速创建slave1和slave2后，可能会产生网卡MAC地址重复的问题，需要在VMware网卡设置中重新生成MAC，在虚拟机复制后需要更改内网网卡的IP。

每次虚拟机重启后，网卡可能没有自动启动，需要手动重新连接。

3、集群SSH免密登陆设置

目的：创建一个可以ssh免密登陆的集群

3.1　　创建hadoop用户

为三个节点分别创建相同的用户hadoop，并在以后的操作均在此用户下操作，操作如下：

$su -

#useradd -m hadoop

#passwd hadoop

为hadoop添加sudo权限

#visudo

在该行root ALL=(ALL) ALL下添加hadoop ALL=(ALL) ALL保存后退出，并切换回hadoop用户

#su hadoop

注意事项：三个节点的用户名必须相同，不然以后会对后面ssh及hadoop集群搭建产生巨大影响

3.2　　hosts文件设置

为了不直接使用IP，可以通过设置hosts文件达到ssh slave1这样的的效果（三个节点设置相同）

$sudo vim /etc/hosts

在文件尾部添加如下行，保存后退出：

192.168.1.100　　master

192.168.1.101　　slave1

192.168.1.102　　slave2

注意事项：不要在127.0.0.1后面添加主机名，如果加了master，会造成后面hadoop的一个很坑的问题，在slave节点应该解析出masterIP的时候解析出127.0.0.1，造成hadoop搭建完全正确，但是系统显示可用节点一直为0。

3.3　　hostname修改

centos7默认的hostname是localhost，为了方便将每个节点hostname分别修改为master、slave1、slave2（以下以master节点为例）。

$sudo hostnamectl set-hostname master

重启terminal，然后查看：$hostname

3.3　　ssh设置

设置master节点和两个slave节点之间的双向ssh免密通信，下面以master节点ssh免密登陆slave节点设置为例，进行ssh设置介绍（以下操作均在master机器上操作）：

首先生成master的rsa密钥：$ssh-keygen -t rsa

设置全部采用默认值进行回车

将生成的rsa追加写入授权文件：$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

给授权文件权限：$chmod 600 ~/.ssh/authorized_keys

进行本机ssh测试：$ssh maste r正常免密登陆后所有的ssh第一次都需要密码，此后都不需要密码

将master上的authorized_keys传到slave1

sudo scp ~/.ssh/id_rsa.pubhadoop@slave1:~/

登陆到slave1操作：$ssh slave1输入密码登陆

$cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

修改authorized_keys权限：$chmod 600 ~/.ssh/authorized_keys

退出slave1：$exit

进行免密ssh登陆测试：$ssh slave1

4、java安装

目的：hadoop是基于Java的，所以要安装配置Java环境（三个节点均需要操作，以下以master节点为例）

下载并安装：$sudo yum install java-1.8.0-openjdkjava-1.8.0-openjdk-devel

验证是否安装完成：$java -version

配置环境变量，修改~/.bashrc文件，添加行： export JAVA_HOME=/usr/lib/jvm/java-1.8.0

使环境变量生效：$source ~/.bashrc

5、Hadoop安装配置

目的：获得正确配置的完全分布式Hadoop集群（以下操作均在master主机下操作）

安装前三台节点都需要需要关闭防火墙和selinux

$sudo systemctl stop firewalld.service
$sudo systemctl disable firewalld.service
$sudo vim /usr/sbin/sestatus

将SELinux status参数设定为关闭状态

SELinux status: disabled

5.1　　Hadoop安装

首先在master节点进行hadoop安装配置，之后使用scp传到slave1和slave2。

下载Hadoop二进制源码至master，下载地址，并将其解压在~/ 主目录下

$tar -zxvf ~/hadoop-2.8.1.tar.gz -C ~/

$mv~/hadoop-2.8.1/* ~/hadoop/

注意事项：hadoop有32位和64位之分，官网默认二进制安装文件是32位的，但是本文操作系统是64位，会在后面hadoop集群使用中产生一个warning但是不影响正常操作。

5.2　　Hadoop的master节点配置

配置hadoop的配置文件core-site.xml　　hdfs-site.xml　　mapred-site.xml　　yarn-site.xml　　slaves（都在~/hadoop/etc/hadoop文件夹下）

$cd ~/hadoop/etc/hadoop

$vimcore-site.xml其他文件相同，以下为配置文件内容：

1.core-site.xml　　


　　
　　　　fs.default.name
　　　　hdfs://master:9000
　　
　　
　　　　hadoop.tmp.dir
　　　　file:/home/hadoop/hadoop/tmp

2.hdfs-site.xml　


　　
　　　　dfs.replication
　　　　2
　　
　　
　　　　dfs.namenode.name.dir
　　　　file:/home/hadoop/hadoop/tmp/dfs/name
　　
　　
　　　　dfs.datanode.data.dir
　　　　file:/home/hadoop/hadoop/tmp/dfs/data
　　
　　
　　　　dfs.namenode.secondary.http-address
　　　　master:9001

3.mapred-site.xml　　


　　
　　　　mapreduce.framework.name
　　　　yarn

4.yarn-site.xml


　　
　　　　yarn.resourcemanager.hostname
　　　　master
　　
　　
　　　　yarn.nodemanager.aux-services
　　　　mapreduce_shuffle
　　
　　
　　　　yarn.log-aggregation-enable
　　　　true
　　
　　
　　　　yarn.log-aggregation.retain-seconds
　　　　604800

5.slaves

slave1
slave2

5.3　　Hadoop的其他节点配置

此步骤的所有操作仍然是在master节点上操作，以master节点在slave1节点上配置为例

复制hadoop文件至slave1：$scp -r ~/hadoop hadoop@slave1:~/

5.4　　Hadoop环境变量配置

配置环境变量，修改~/.bashrc文件，添加行（每个节点都需要此步操作，以master节点为例）：

#hadoop environment vars
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使环境变量生效：$source ~/.bashrc

6、Hadoop启动

格式化namenode：$hadoop namenode -format

启动hadoop：$start-all.sh

master节点查看启动情况：$jps

slave1节点查看启动情况：$jps

slave2节点查看启动情况：$jps

Web浏览器输入127.0.0.1:50070，查看管理界面

7、Hadoop集群测试

目的：验证当前hadoop集群正确安装配置

本次测试用例为利用MapReduce实现wordcount程序

生成文件testWordCount：$echo "My name is Xie PengCheng. This is a example program called WordCount, run by Xie PengCheng " >>testWordCount

创建hadoop文件夹wordCountInput：$hadoop fs -mkdir /wordCountInput

将文件testWordCount上传至wordCountInput文件夹：$hadoop fs -puttestWordCount/wordCountInput

执行wordcount程序，并将结果放入wordCountOutput文件夹：$hadoop jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.1.jar wordcount /wordCountInput /wordCountOutput

注意事项：/wordCountOutput文件夹必须是没有创建过的文件夹

查看生成文件夹下的文件：$hadoop fs -ls /wordCountOutput

在output/part-r-00000可以看到程序执行结果：$hadoop fs -cat /wordCountOutpart-r-00000

总结

以上所述是小编给大家介绍的Hadoop2.8.1完全分布式环境搭建过程，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

推荐阅读

程序员
Xcode 7.2无法通过iOS 9.2连接到iPhone

如何解决《Xcode7.2无法通过iOS9.2连接到iPhone》经验，为你挑选了1个好方法。 ... [详细]
程序员
在PKCS12导出过程中,OpenSSL挂起,"加载'屏幕'进入随机状态"

如何解决《在PKCS12导出过程中,OpenSSL挂起,"加载'屏幕'进入随机状态"》经验，为你挑选了2个好方法。 ... [详细]
程序员
什么是-anydpi和-nodpi之间的区别？

如何解决《什么是-anydpi和-nodpi之间的区别？》经验，为你挑选了4个好方法。 ... [详细]
程序员
您尝试访问的存储区必须使用指定的端点进行寻址,同时从jenkins上传到s3

如何解决《您尝试访问的存储区必须使用指定的端点进行寻址,同时从jenkins上传到s3》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中的Firebase数据描述排序

如何解决《Android中的Firebase数据描述排序》经验，为你挑选了4个好方法。 ... [详细]
程序员
如何在ASP.NET MVC视图中使用@page CSS

如何解决《如何在ASP.NETMVC视图中使用@pageCSS》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在开始和结束字符串之间删除在java中无法正常工作？

如何解决《为什么在开始和结束字符串之间删除在java中无法正常工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何找到Azure PowerShell版本？

如何解决《如何找到AzurePowerShell版本？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Perl - Regex,条件和匹配不一致字符串的多个对象

如何解决《Perl-Regex,条件和匹配不一致字符串的多个对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
AccountManager返回空帐户

如何解决《AccountManager返回空帐户》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Async/Await和EntityFramework调用多个存储过程

如何解决《使用Async/Await和EntityFramework调用多个存储过程》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在python中显示&符号(&)？

如何解决《如何在python中显示&符号(&)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Redux,同步动作后回调

如何解决《Redux,同步动作后回调》经验，为你挑选了1个好方法。 ... [详细]
程序员
输出文件名未配置Webpack中的错误

如何解决《输出文件名未配置Webpack中的错误》经验，为你挑选了4个好方法。 ... [详细]
程序员
为什么这个Bash脚本没有错误？

如何解决《为什么这个Bash脚本没有错误？》经验，为你挑选了2个好方法。 ... [详细]
程序员
querySelector和querySelectorAll别名

如何解决《querySelector和querySelectorAll别名》经验，为你挑选了1个好方法。 ... [详细]
程序员
尊重部署在Cloudfoundry或Heroku上的Gradle/Spring应用程序的代码库因子(来自12因素应用程序宣言)

如何解决《尊重部署在Cloudfoundry或Heroku上的Gradle/Spring应用程序的代码库因子(来自12因素应用程序宣言)》经验，为你挑选了0个好方法。 ... [详细]
程序员
Azure SQL登录密码不够复杂

如何解决《AzureSQL登录密码不够复杂》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用或不使用链接匹配HTML的正则表达式

如何解决《使用或不使用链接匹配HTML的正则表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
变化值变化原因不明？

如何解决《变化值变化原因不明？》经验，为你挑选了2个好方法。 ... [详细]

jerry613

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章