8赞

当前位置: 开发笔记 > 后端 > 正文

在VMware虚拟机中安装配置hadoop集群图文教程

作者：牛尾巴2010 | 2021-08-08 21:28

原创文档，转载请保留原文url地址hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将

原创文档，转载请保留原文url地址

hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将Hadoop看做是下一个Linux的原因。

本文介绍基于多台vmware虚拟机来安装hadoop集群的过程及方法，通过这个小的集群让您在本地电脑上就可以研究hadoop的相关工作过程，有人会有疑问在小的虚拟机集群上研究的结果，写的程序能否在大集群上工作正常？可以肯定的没问题的。

Hadoop的一个特性是线性增长特性，即当前数量情况下，处理时间是1，若是数据量加倍，后处理时间加倍，若是在这种情况下，处理能力也加倍则处理时间也是1.

正常情况hadoop需要较多的服务器才能搭建，但是我们在家里学习如何去找那么服务器，解决办法可以找几台pc机，在pc机上安装linux系统就可以了。

当然我们还有更简单的办法，就是找一台高性能的电脑，在电脑上安装虚拟机软件，里面创建若干台虚拟机，然后让这些虚拟机构成一个小的内部局域网络，在这个网络上我们安装linux软件， java软件，安装hadoop程序，我们就可以创建一个简单hadoop的研究系统，进行软件的开发调试，在这个小的分布式集群上开发的程序可以无缝移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特别是低版本同高版本，他们的api也有些许变化）集群中。

如下是在笔者笔记本上构建的一个hadoop的虚拟机系统，相关网络拓扑结构如下：

vmware虚拟机下hadoop集群安装过程

虚拟机0，机器名称：db， ip：192.168.186.10

虚拟机1，机器名称：red， ip：192.168.186.11

虚拟机2，机器名称：mongdb， ip：192.168.186.12

虚拟机3，机器名称：nginx，ip：192.168.186.13

如上图， 4台虚拟机通过一个虚拟的交换机互联，开发机器也连接到这个虚拟交换机上，虚拟的交换机同adsl相连接，这样整个系统都可以直接上网了。

下面是几个虚拟机的典型配置，如下：

vmware虚拟机下hadoop集群安装过程

Db的配置，如上，这个机器的内存配置比较高，这个机器是机器的master服务器，需要较多的内存。因此配置了1.3g内存。

下面是red的配置， mongdb及nginx的配置同这个机器配置相同，配置如下：

vmware虚拟机下hadoop集群安装过程

这个机器的配置同db机器配置相同，仅仅是内存小了些，这里内存是188m，作为调试环境已经足够用了。

1. 网卡的Ip地址配置

采用静态ip配置方式，防止重新启动后dhcp分配新的ip后，造成不必要的混乱。配置如下：

vmware虚拟机下hadoop集群安装过程

2. Hosts文件配置

[root@db ~]# cat /etc/hosts

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1 localhost.localdomain localhost

::1 localhost6.localdomain6 localhost6

192.168.186.10 db

192.168.186.11 red

192.168.186.12 mongdb

192.168.186.13 nginx

vmware虚拟机下hadoop集群安装过程

需要确保每一台机器的 hosts文件配置如上图所示。

简便配置方法，在配置一台机器后，可以编写脚本实现自动将hosts文件复制到多台机器上。脚本如下：

[root@db ~]# cat update_hosts.sh

#!/bin/sh

for host in red mongdb nginx;do

echo $host

scp /etc/hosts root@${host}:/etc/

done

[root@db ~]#

主要这个脚本要在root下编写，然后赋予可以执行的权限（chmod a+x *.sh）, 然后在root权限下执行。脚本会自动完成hosts文件的复制工作。

上面过程完成后，分别登录每一台机器，把每一个服务器都ping一下，若是不通，在仔细检查一下。

3. Java配置

在每个虚拟机服务器上检查是否正确安装了java，是否配置了java的环境变量等

vmware虚拟机下hadoop集群安装过程

如上图， 1处输入 java -version，然后应该输出类似2处的输出，标识java已经正确安装了

同时采用3处的命令， env | grep JAVA_HOME 来检查环境变量是否正确配置了，若是没有配置java的环境变量则需要进行配置

若是您java还有安装请用下面命令安装

yum install java-1.7.0-openjdk

然后用下面命令配置环境变量。

vi /etc/profile

打开编辑的文件后，在文件最后面添加如下内容

JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

JRE_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

PATH=$PATH:$JAVA_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME JRE_HOME PATH CLASSPATH

保存退出，最后运行下面命令，使配置生效

source /etc/profile

然后再次测试上面的过程，看看是否符合相关需要。如果您还没做到到网络搜索一下吧。

4. ssh免登录功能配置

Hadoop通过ssh进行相关管理工作，主要是hadoop的管理脚本通过ssh远程对各个服务器进行相关的管理，包括启动，停止等。

关于如何配置ssh的免密码登录，请参考下面文章的相关部分：

Hadoop1.2.1 Pseudo-Distributed伪分布模式配置

http://www.iigrowing.cn/hadoop1-2-1-pseudo-distributed-wei-fen-bu-mo-shi-pei-zhi.html

5. 关闭相关的防火墙

Hadoop程序在工作过程中，各个节点间有很多程序要进行通信，因此我们需要对防火墙做些处理，保证这些访问能正常工作。我们这里采用最简单的办法是关闭研究用集群虚拟机的全部防火墙.

在虚拟机中，启动setup程序

vmware虚拟机下hadoop集群安装过程

选择防火墙工作这一项

vmware虚拟机下hadoop集群安装过程

在下面的对话框中，选择如下特殊颜色的区域的相关选项，最后选择ok推出

vmware虚拟机下hadoop集群安装过程

6. 下载hadoop程序

推荐阅读

程序员
jQuery文件上传Basic Plus Ui和i18n

如何解决《jQuery文件上传BasicPlusUi和i18n》经验，为你挑选了1个好方法。 ... [详细]
程序员
从加密方法解密

如何解决《从加密方法解密》经验，为你挑选了1个好方法。 ... [详细]
程序员
InvalidValueError:不是HTMLInputElement的实例

如何解决《InvalidValueError:不是HTMLInputElement的实例》经验，为你挑选了3个好方法。 ... [详细]
程序员
在Android上安装/更新Cordova应用程序时出现错误-505

如何解决《在Android上安装/更新Cordova应用程序时出现错误-505》经验，为你挑选了1个好方法。 ... [详细]
程序员
纯CSS3不断移动滑块

如何解决《纯CSS3不断移动滑块》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xcode:如何导出开发人员配置文件以便在另一台Mac上导入它

如何解决《Xcode:如何导出开发人员配置文件以便在另一台Mac上导入它》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用SQLite.swift批量插入,性能如何？

如何解决《使用SQLite.swift批量插入,性能如何？》经验，为你挑选了0个好方法。 ... [详细]
程序员
某些字段上的PHP Codeigniter批量更新失败

如何解决《某些字段上的PHPCodeigniter批量更新失败》经验，为你挑选了0个好方法。 ... [详细]
程序员
AngularJS NgMessages不隐藏消息

如何解决《AngularJSNgMessages不隐藏消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
gen_server中的错误也会终止调用进程？

如何解决《gen_server中的错误也会终止调用进程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++在函数参数上传递std :: unique_ptr对象作为引用的正确方法

如何解决《C++在函数参数上传递std::unique_ptr对象作为引用的正确方法》经验，为你挑选了2个好方法。 ... [详细]
程序员
Java：双重打印-println或printf

如何解决《Java：双重打印-println或printf》经验，为你挑选了1个好方法。 ... [详细]
程序员
C# - 是否可以检查哪个可选的正则表达式组匹配？

如何解决《C#-是否可以检查哪个可选的正则表达式组匹配？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将大量索引项转换为流的最简单方法

如何解决《将大量索引项转换为流的最简单方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UIStackView中具有多个子视图的宽度和高度

如何解决《如何在UIStackView中具有多个子视图的宽度和高度》经验，为你挑选了1个好方法。 ... [详细]
程序员
加载多个YAML文件（使用@ConfigurationProperties吗？）

如何解决《加载多个YAML文件（使用@ConfigurationProperties吗？）》经验，为你挑选了0个好方法。 ... [详细]
程序员
MSBuild在_CopyOutOfDateSourceItemsToOutputDirectory期间复制依赖项目文件

如何解决《MSBuild在_CopyOutOfDateSourceItemsToOutputDirectory期间复制依赖项目文件》经验，为你挑选了0个好方法。 ... [详细]
程序员
具有JCE的固定长度64字节EC P-256签名

如何解决《具有JCE的固定长度64字节ECP-256签名》经验，为你挑选了0个好方法。 ... [详细]
程序员
MVVM“活页夹”的定义及其用法？

如何解决《MVVM“活页夹”的定义及其用法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
构造函数中有许多参数的最佳实践？

如何解决《构造函数中有许多参数的最佳实践？》经验，为你挑选了0个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章