我试图理解hadoop和map/reduce的界限,这将有助于我们知道map/reduce无法帮助的非平凡问题或一类问题.
如果改变问题的一个因素可以简化map/reduce,那肯定会很有意思.
谢谢
我想到两件事:
任何需要实时/交互/低延迟响应时间的东西.提交给Hadoop的任何工作都会产生固定成本.
任何不尴尬并行的问题.Hadoop可以处理许多需要数据之间简单相互依赖的问题,因为记录在reduce阶段加入.但是,某些图形处理和机器学习算法很难在Hadoop中编写,因为有太多的操作彼此依赖.一些机器学习算法需要非常低的延迟,随机访问大量数据,而Hadoop并不提供开箱即用的功能.