这是一个模糊的问题,所以这里有一个模糊的答案:)
Hadoop本身就是一个在集群中运行map-reduce作业的工具,它针对性能进行了高度优化,并且通过以一种易于使用而不会产生I/O的方式分发数据来完成大量此类优化.处罚.
为此,您应该阅读有关HDFS和内部解释如何完成的内容,简而言之,输入数据在节点中聚集在一起以在本地运行进程并按顺序读取(这是HDFS的属性/限制) .
通过这种方式,您可以输入"BigData",并在集群内部以最有效的方式进行拆分和处理.
现在,除了Hadoop本身之外,还有一些工具可以在其上工作,允许您对数据执行高级抽象(map-reduce是最简单的过程之一).
那些包括:
Pig http://pig.apache.org/这是一种使用map-reduce流程并构建更复杂操作的语言
Hive http://hive.apache.org/类似于以前但更多面向SQL的
级联http://www.cascading.org/另一个,更关注数据流而不是查询
基于Cascading的Cascalog https://github.com/nathanmarz/cascalog,用Clojure编写
HBase http://hbase.apache.org/一种基于HDFS的NoSQL数据库
ElephantDB https://github.com/nathanmarz/elephantdb另一个用于Hadoop的NoSQL数据库
.Net的细节
对于Azure上的Hadoop(.Net),这里有msdn的介绍,这里有更多信息.与通过其平台构建Hadoop应用程序相关.它现在只是CTP,但当然这会改变.
下面是关于另一个很好的博客帖子的Hadoop和MapReduce与代码
此外,还有一家公司经常提供有关Hadoop的信息:Cloudera,您应该经常查看那里以获取更多信息.有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然它非常先进)
我很确定这不是你想要的,但我不知道你想要什么,所以至少我希望你能检查一些可能有用的新项目.
还检查Storm:https://github.com/nathanmarz/storm它与Hadoop无关,但适用于Hadoop不适合的实时场景.
这是一个模糊的问题,所以这里有一个模糊的答案:)
Hadoop本身就是一个在集群中运行map-reduce作业的工具,它针对性能进行了高度优化,并且通过以一种易于使用而不会产生I/O的方式分发数据来完成大量此类优化.处罚.
为此,您应该阅读有关HDFS和内部解释如何完成的内容,简而言之,输入数据在节点中聚集在一起以在本地运行进程并按顺序读取(这是HDFS的属性/限制) .
通过这种方式,您可以输入"BigData",并在集群内部以最有效的方式进行拆分和处理.
现在,除了Hadoop本身之外,还有一些工具可以在其上工作,允许您对数据执行高级抽象(map-reduce是最简单的过程之一).
那些包括:
Pig http://pig.apache.org/这是一种使用map-reduce流程并构建更复杂操作的语言
Hive http://hive.apache.org/类似于以前但更多面向SQL的
级联http://www.cascading.org/另一个,更关注数据流而不是查询
基于Cascading的Cascalog https://github.com/nathanmarz/cascalog,用Clojure编写
HBase http://hbase.apache.org/一种基于HDFS的NoSQL数据库
ElephantDB https://github.com/nathanmarz/elephantdb另一个用于Hadoop的NoSQL数据库
.Net的细节
对于Azure上的Hadoop(.Net),这里有msdn的介绍,这里有更多信息.与通过其平台构建Hadoop应用程序相关.它现在只是CTP,但当然这会改变.
下面是关于另一个很好的博客帖子的Hadoop和MapReduce与代码
此外,还有一家公司经常提供有关Hadoop的信息:Cloudera,您应该经常查看那里以获取更多信息.有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然它非常先进)
我很确定这不是你想要的,但我不知道你想要什么,所以至少我希望你能检查一些可能有用的新项目.
还检查Storm:https://github.com/nathanmarz/storm它与Hadoop无关,但适用于Hadoop不适合的实时场景.