MapReduce适合我吗？

作者：Gbom2402851125 | 2023-08-11 19:08

如何解决《MapReduce适合我吗？》经验，为你挑选了1个好方法。

我正在研究一个涉及分析大量数据的项目,所以我最近发现了MapReduce,在我进一步深入研究之前,我想确保我的期望是正确的.

与数据的交互将发生在Web界面上,因此响应时间至关重要,我想的是10-15秒的限制.假设在我对其进行任何分析之前,我的数据将被加载到分布式文件系统中,我可以从中获得什么样的性能？

~~假设我需要过滤一个结构良好的简单5GB XML文件,它具有相当平坦的数据结构和10,000,000条记录.让我们说输出将产生100,000条记录.可能10秒？~~

~~如果它,我在看什么样的硬件？如果没有,为什么不呢？~~

我把这个例子放下,但现在希望我没有.5GB只是我所谈论的一个样本,实际上我会处理大量数据.5GB可能是一天中一小时的数据,我可能想要识别符合特定条件的所有记录.

数据库对我来说真的不是一个选择.我想知道的是,使用MapReduce可以获得的最快性能是什么.它总是在几分钟或几小时？它永远不会秒？

1> danben..：

MapReduce适用于扩展大型数据集的处理,但它不是为了响应.例如,在Hadoop实现中,启动的开销通常需要几分钟.这里的想法是采取一个需要几天的处理工作,并将其降低到几小时,或几小时到几分钟等等.但是你不会为了响应网络请求而开始一项新工作并期望它完成时间回应.

要了解为什么会出现这种情况,请考虑MapReduce的工作方式(一般,高级概述):

一堆节点接收部分输入数据(称为拆分)并进行一些处理(映射步骤)

重新分区中间数据(从最后一步输出),使得具有相同键的数据一起结束.这通常需要节点之间的一些数据传输.

reduce节点(不一定与映射器节点不同 - 一台机器可以连续执行多个作业)执行reduce步骤.

收集并合并结果数据以生成最终输出集.

虽然Hadoop等人试图尽可能保持数据局部性,但在处理过程中仍然存在大量的混乱.仅此一项就可以阻止您使用分布式MapReduce实现来支持响应式Web界面.

编辑:正如Jan Jongboom指出的那样,MapReduce非常适合预处理数据,因此Web查询可以快速进行,因为他们不需要进行处理.考虑从大量网页创建倒排索引的着名示例.

但是,您可以创建一些MapReduce alghoritm并让它预处理数据,因此在您的webapp中,您可以查询优化的数据集.这样你就可以获得响应式查询.

推荐阅读

程序员
使用union将字典添加到`set()`

如何解决《使用union将字典添加到`set()`》经验，为你挑选了2个好方法。 ... [详细]
程序员
杀死一个敌人会使每个敌人消失 - C#Unity

如何解决《杀死一个敌人会使每个敌人消失-C#Unity》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows上的Anaconda Python中安装Keras和Theano？

如何解决《如何在Windows上的AnacondaPython中安装Keras和Theano？》经验，为你挑选了4个好方法。 ... [详细]
程序员
TypeScript:继承类中静态方法的自引用返回类型

如何解决《TypeScript:继承类中静态方法的自引用返回类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该为我的API使用哪种身份验证策略？

如何解决《我应该为我的API使用哪种身份验证策略？》经验，为你挑选了1个好方法。 ... [详细]
程序员
找出给定键组合的相应转义序列

如何解决《找出给定键组合的相应转义序列》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何划分Redux Reducer与动作创建者之间的逻辑？

如何解决《如何划分ReduxReducer与动作创建者之间的逻辑？》经验，为你挑选了1个好方法。 ... [详细]
程序员
aspnet5 vNext(rc1)iis 8 - 糟糕的网关502.3

如何解决《aspnet5vNext(rc1)iis8-糟糕的网关502.3》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何重新连接控制台？

如何解决《如何重新连接控制台？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从main.css文件中删除关键CSS

如何解决《如何从main.css文件中删除关键CSS》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在linux中两次打开文件？

如何解决《如何在linux中两次打开文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自Dynamic Linq的Execution-Deferred IQueryable <T>？

如何解决《来自DynamicLinq的Execution-DeferredIQueryable<T>？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用psql时如何在postgres中选择模式？

如何解决《使用psql时如何在postgres中选择模式？》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何在Java中交换两个对象？

如何解决《如何在Java中交换两个对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何轻松地将RDF三元组转换为自动Java POJO业务对象？

如何解决《如何轻松地将RDF三元组转换为自动JavaPOJO业务对象？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以在JavaScript中更改对象类型的名称？

如何解决《是否可以在JavaScript中更改对象类型的名称？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django image.save()TypeError:get_valid_name()缺少位置参数:'name'

如何解决《Djangoimage.save()TypeError:get_valid_name()缺少位置参数:'name'》经验，为你挑选了1个好方法。 ... [详细]
程序员
从size_t转换为wchar_t需要缩小转换

如何解决《从size_t转换为wchar_t需要缩小转换》经验，为你挑选了1个好方法。 ... [详细]
程序员
MVC 6 Tag Helpers Intellisense？

如何解决《MVC6TagHelpersIntellisense？》经验，为你挑选了2个好方法。 ... [详细]
程序员
在初始加载时在Three.JS Canvas中安装3D对象(Collada文件)

如何解决《在初始加载时在Three.JSCanvas中安装3D对象(Collada文件)》经验，为你挑选了1个好方法。 ... [详细]

Gbom2402851125

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章