RedHat Linux下安装Hadoop 0.20.2并在Windows下远程连接此Hadoop开发调试

作者：路人甲 | 2021-09-04 03:46

此文章的前提是：知道Hadoop是什么，知道什么是分布式系统，了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分：1、hadoop在RedHatlinux下的安装过程网上有很多讲授在

此文章的前提是：知道Hadoop是什么，知道什么是分布式系统，了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分：

1、hadoop 在 RedHat linux下的安装过程

网上有很多讲授在windows下通过Cygwin安装hadoop的，笔者认为hadoop原始设计就是在linux下安装使用的，在windows下通过Cygwin安装也无非是模拟linux环境再在这个模拟的环境上装hadoop，既然要学hadoop就真枪实弹的在linux下安装来学习，但是要搞一台真正的linux系统对一般个人来说不容易，但是我们可以用虚拟机VMware Player，就是在windows下装一个虚拟机(VMware Player 就是个很好的虚拟机)，然后在虚拟机上装一个linux系统，实现和本机windows的通信，具体的怎么安装虚拟机，怎么在虚拟机上安装linux，以及怎么实现和本机windows的通信，这里就不讲了，这个网上有很多资料。

2、在本机windows下，通过eclispe连接到linux虚拟机上安装好的haoop，进行开发调试

linux上装好hadoop之后，可以等陆到linux上通过hadoop的shell命令查看hadoop的 hdfs文件系统，执行写好的mapreduce程序，但是这样会很不方便，我们通常的做法是在windows下开发程序，调试成功之后，再发布到linux上执行，这一部分就是来分享一下如何配置windows下的eclipse，可以链接到linux下的hadoop。

接下来就先说说第一部分的内容：

hadoop安装有三种模式：单机模式，伪分布式，完全分布式。

1、单机模式：没意义，pass掉，不讨论。

2、伪分布式：就是在一台机器上模拟namenode、datanode、jobtracker、tasktracker、secondaryname。每一个存在的形式是一个java进程。

3、完全分布式：就是一个hadoop集群，有n台机器组成，一般组织方式是：一台机器作为master，上面运行 namenode和jobtracker,另外的机器作为slave，上面运行datanode和tasktracker，至于secondaryname，可以运行在master上，也可以运行在另外一台机器上。secondaryname是namenode的一个备份里面同样保存了名字空间，和文件到文件块的map关系。建议运行在另外一台机器上，这样master死掉之后，还可以通过secondaryname所在的机器找回名字空间，和文件到文件块得map关系数据，恢复namenode。

这里条件有限，就只能实现伪分布式，就是在虚拟机上装一个linux。其实也可以在虚拟机上装n个linux，来实现完全分布式，但是我怕我的小本本，吃不消。就只能装伪分布式了。

首先确保windows下已经安装了虚拟机，并在虚拟机上安装了linux，且能和windows通信了（在windows的cmd里ping linux的ip能ping通说明可以通信了，ask：怎么知道linux的ip？，answer：进入linux终端，ifconfig即可看到）笔者window上已经安装了虚拟机并在虚拟机上装了linux系统，装linux的时候会有一个root用户，接下来我们就全部用这个root用户来操作，网上好多资料说新建一个用户比如hadoop，来安装hadoop，这里为了方便，就用root（其实是偷懒，不想弄得复杂，哇咔咔，(*^__^*) 嘻嘻……）。

安装hadoop步骤

1、实现linux的ssh无密码验证配置.

2、在linux下安装jdk，并配好环境变量

3、修改linux的机器名，并配置 /etc/hosts

4、在windows下下载hadoop 0.20.0，并修改hadoop-env.sh，core-site.xml，hdfs-site.xml，

mapred-site.xml，masters，slaves文件的配置

5、把修改好的hadoop整个文件夹传到linux下

6、把hadoop的bin加入到环境变量

7、格式化hadoop，启动hadoop

8、验证是否启动，并执行wordcount

这个顺序并不是一个写死的顺序，就得按照这个来，如果你知道原理，可以打乱顺序来操作，比如1、2、3，先那个后那个，都没问题，但是有些步骤还是得依靠一些操作完成了才能进行，新手建议按照顺序来。前辈看看交流交流经验即可。(^__^) 嘻嘻……

一、实现linux的ssh无密码验证配置

ask：为什么要配置ssh无密码验证

answer：Hadoop需要使用SSH协议，namenode将使用SSH协议启动namenode和datanode进程，(datanode向namenode传递心跳信息可能也是使用SSH协议，这是我认为的，还没有做深入了解)。许多教程上介绍Hadoop集群配置时只说明了namenode上SSH无密码登录所有datanode，我在配置时发现必须使datanode上也能SSH无密码登录到namenode，Hadoop集群才能正常启动(也许这不是必须的，只是我的一个失误，但是这样能够正常启动Hadoop集群)。上述蓝色字体，是我粘的某个前辈的话，大概意思是，namenode 和datanode之间发命令是靠ssh来发的，发命令肯定是在运行的时候发，发的时候肯定不希望发一次就弹出个框说：有一台机器连接我，让他连吗。所以就要求后台namenode和datanode无障碍的进行通信，这个无障碍怎么实现呢？，就是配置ssh无密码验证.上述中前辈有个顾虑，说实现了namenode到datanode无障碍链接到，那还用实现datanode和namenode的无障碍连接吗？，这个我就不考虑了，我这里是伪分布的，就一台机器，namenode和datanode都在一个机器上，能实现自己连自己就行了。不是自己的问题就不去伤脑筋了，哇咔咔~~，读者如果弄完全分布式的时候，碰到这个问题，可以自己试试，不行，也就实现datanode到namenode的无障碍的通信，试试又累不死~~~。

ask：实现无密码验证就能无障碍连接，这其中原理是神马捏？

answer：以namenode到datanode为例子：Namenode作为客户端，要实现无密码公钥认证，连接到服务端datanode上时，需要在namenode上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到datanode上。当namenode通过ssh连接datanode时，datanode就会生成一个随机数并用namenode的公钥对随机数进行加密，并发送给namenode。namenode收到加密数之后再用私钥进行解密，并将解密数回传给datanode，datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。这也是我粘的某个前辈的话，啥也不说了，前辈说的很清楚，就是这么回事。

知道why了，现在就开始how吧

我这里就一台机器，所以操作很简单

在linux命令行里输入：ssh-keygen -t rsa，然后一路回车。

root@hadoopName-desktop:~$ ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/home/zhangtao/.ssh/id_rsa): //密钥保存位置，直接回车保持默认；

Created directory '/home/zhangtao/.ssh'.

Enter passphrase (empty for no passphrase): //设置密钥的密码，空密码直接回车即可；

Enter same passphrase again: //确认上一步设置的密码。

然后进入 /root/.ssh/下面，会看到两个文件 id_rsa.pub，id_rsa，

然后执行 cp id_rsa.pub authorized_keys

然后 ssh localhost 验证是否成功，第一次要你输入yes，以后就不需要了。

推荐阅读

程序员
如何找到2个向量之间的精确匹配？

如何解决《如何找到2个向量之间的精确匹配？》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查IEnumerable <T>是否由yield关键字创建的正确方法

如何解决《检查IEnumerable<T>是否由yield关键字创建的正确方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django Autocomplete Light限制查询结果

如何解决《DjangoAutocompleteLight限制查询结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
AngularJS $ http.post与body

如何解决《AngularJS$http.post与body》经验，为你挑选了2个好方法。 ... [详细]
程序员
javascript注释中global关键字的目的是什么

如何解决《javascript注释中global关键字的目的是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中实现负责释放值的链表？

如何解决《在C中实现负责释放值的链表？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Cassandra - 将PreparedStatement与ListenableFuture一起使用

如何解决《Cassandra-将PreparedStatement与ListenableFuture一起使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么会阻止队列中的作业处理？[PHP/Laravel 5]

如何解决《什么会阻止队列中的作业处理？[PHP/Laravel5]》经验，为你挑选了0个好方法。 ... [详细]
程序员
测试两个二叉树是否相等

如何解决《测试两个二叉树是否相等》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从django中的模块中的给定字段获取所有引用为ForeignKey的对象

如何解决《如何从django中的模块中的给定字段获取所有引用为ForeignKey的对象》经验，为你挑选了2个好方法。 ... [详细]
程序员
Angular2替换$ httpProvider.defaults.withCredentials

如何解决《Angular2替换$httpProvider.defaults.withCredentials》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法在Apache Spark SQL 1.5.2的SQLContext中运行查询,获取java.lang.NoSuchMethodError

如何解决《无法在ApacheSparkSQL1.5.2的SQLContext中运行查询,获取java.lang.NoSuchMethodError》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从函数onResponse of Retrofit返回值？

如何解决《如何从函数onResponseofRetrofit返回值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过Monocle修改地图

如何解决《通过Monocle修改地图》经验，为你挑选了1个好方法。 ... [详细]
程序员
Pandas python - 匹配值

如何解决《Pandaspython-匹配值》经验，为你挑选了1个好方法。 ... [详细]
程序员
合并git中的XML文件更改

如何解决《合并git中的XML文件更改》经验，为你挑选了0个好方法。 ... [详细]
程序员
仅返回基于子文档_id的子文档,子文档_id是mongodb文档的数组字段的项目

如何解决《仅返回基于子文档_id的子文档,子文档_id是mongodb文档的数组字段的项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
CollapsingToolbarLayout + TabLayout,奇怪的工具栏标题边距

如何解决《CollapsingToolbarLayout+TabLayout,奇怪的工具栏标题边距》经验，为你挑选了2个好方法。 ... [详细]
程序员
查找列表的"居中平均值"

如何解决《查找列表的"居中平均值"》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有一个更简单的类型系统与CoC的实用工具？

如何解决《是否有一个更简单的类型系统与CoC的实用工具？》经验，为你挑选了0个好方法。 ... [详细]

路人甲

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章