有人可以概述各种可用的Hadoop发行版之间的差异:
Cloudera - http://www.cloudera.com/hadoop
雅虎 - http://developer.yahoo.net/blogs/hadoop/
使用Apache Hadoop发行版作为基线.
有没有充分的理由在标准的Apache Hadoop发行版上使用其中一个发行版?
免责声明:我今年夏天在Cloudera实习(但我的一些好朋友都在Yahoo! :-))
Yahoo发行版是Hadoop 20的一个版本,它们在其集群的某个子集上运行(运行?).它包括一组用于稳定性,错误修复等的补丁.它是一个源代码版本; 它没有管理员友好的功能,如rpm或debian包等.
Cloudera发行包是rpms和debs(源代码也可用).这意味着您可以通过标准方法等获得更新.它还包括稳定性和错误修复补丁.它一直被维护(不是说雅虎不是 - 我想人们可以继续使用github并检查他们上次更新它的时间).它还包装Pig和Hive.
Cloudera对Hadoop 20的分发处于测试阶段,18个被认为是稳定的(在Cloudera博客上有更多内容).18版还包括Hive和Pig的包装; 对于20,你必须自己构建它们(虽然存在补丁,但还没有正式版本的Pig或Hive支持20).Cloudera和雅虎版本20之间可能存在重大差异; 两者都提供清单,所以你可以检查.Cloudera发行版的最新文档位于http://archive.cloudera.com
雅虎不为其发行提供支持; 他们将修补后的版本作为服务提供给社区,因此感兴趣的人可以构建Yahoo内部运行的内容.考虑到Yahoo集群的规模,这是一个重要的贡献,特别是如果您不是一直关注JIRA的Hadoop开发人员.Cloudera支持他们的商业发行,并通过Hadoop邮件列表提供一些社区支持,并针对发行版特定问题,在他们的GetSatisfaction页面上提供.
两者都与vanilla Apache发行版完全不同,因为它们在发行版之间进行了修补(20版的cloudera版本有60多个补丁!).