流数据和Hadoop？(不是Hadoop Streaming)

作者：贾志军 | 2023-08-22 02:18

如何解决《流数据和Hadoop？(不是HadoopStreaming)》经验，为你挑选了2个好方法。

我想使用MapReduce方法分析连续的数据流(通过HTTP访问),所以我一直在研究Apache Hadoop.不幸的是,似乎Hadoop希望以固定大小的输入文件开始工作,而不是在消费者到达时能够将新数据传递给消费者.这是真的吗,还是我错过了什么？是否有一个不同的MapReduce工具可以处理从打开的套接字读入的数据？可扩展性是一个问题,所以我更喜欢让MapReducer处理凌乱的并行化内容.

我玩过Cascading并能够在通过HTTP访问的静态文件上运行作业,但这实际上并没有解决我的问题.我可以使用curl作为中间步骤将数据转储到Hadoop文件系统的某个地方,并编写一个监视程序,以便在每次准备好新的数据块时触发新作业,但这是一个肮脏的黑客行为; 必须有一些更优雅的方式来做到这一点.有任何想法吗？

1> SquareCog..：

您描述的黑客或多或少是标准的处理方式 - Hadoop基本上是一个面向批处理的系统(一方面,如果数据没有结束,Reducers就无法启动,因为它们必须在之后启动地图阶段结束了).

旋转你的日志; 当你将它们旋转出来时,将它们转储到HDFS中.有一个看门狗进程(可能是分布式进程,使用ZooKeeper协调)监视转储地并启动新的处理作业.您需要确保作业在足够大的输入上运行以保证开销.

Hbase是hadoop生态系统中的BigTable克隆,可能对您感兴趣,因为它允许连续的插入流; 但是,您仍需要以批处理模式运行分析查询.

2> DrDol..：

怎么样http://s4.io/.它用于处理流数据.

更新

新产品正在兴起:Storm - 分布式和容错实时计算:流处理,连续计算,分布式RPC等

推荐阅读

程序员
在React Native中循环Json和显示

如何解决《在ReactNative中循环Json和显示》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android中的DBFlow与GreenDao orm库

如何解决《Android中的DBFlow与GreenDaoorm库》经验，为你挑选了0个好方法。 ... [详细]
程序员
与std :: unordered_map或std :: map相比,MFC CMap是否具有良好的性能

如何解决《与std::unordered_map或std::map相比,MFCCMap是否具有良好的性能》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在MySQL 5.7中更改字符集(从latin到utf8)

如何解决《无法在MySQL5.7中更改字符集(从latin到utf8)》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Django在没有表单(REST api)的情况下访问POST字段数据

如何解决《使用Django在没有表单(RESTapi)的情况下访问POST字段数据》经验，为你挑选了3个好方法。 ... [详细]
程序员
Solr不会覆盖 - 重复的uniqueKey条目

如何解决《Solr不会覆盖-重复的uniqueKey条目》经验，为你挑选了0个好方法。 ... [详细]
程序员
ng-click不工作angularJS

如何解决《ng-click不工作angularJS》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Text :: CSV根据变量内容在csv文件上打印一行

如何解决《使用Text::CSV根据变量内容在csv文件上打印一行》经验，为你挑选了1个好方法。 ... [详细]
程序员
Netty应用程序优化

如何解决《Netty应用程序优化》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在GO中访问地图值？

如何解决《如何在GO中访问地图值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过sbt插件添加库依赖项 - 每个子项目

如何解决《通过sbt插件添加库依赖项-每个子项目》经验，为你挑选了0个好方法。 ... [详细]
程序员
PyQt messagebox yes或no with if

如何解决《PyQtmessageboxyes或nowithif》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scala - 块不能包含声明

如何解决《Scala-块不能包含声明》经验，为你挑选了2个好方法。 ... [详细]
程序员
Datepicker和timepicker - 设置最大值和最小值

如何解决《Datepicker和timepicker-设置最大值和最小值》经验，为你挑选了2个好方法。 ... [详细]
程序员
React原生弹性框不使用所有可用空间

如何解决《React原生弹性框不使用所有可用空间》经验，为你挑选了1个好方法。 ... [详细]
程序员
滑行.缓存到外部存储(SD卡)

如何解决《滑行.缓存到外部存储(SD卡)》经验，为你挑选了1个好方法。 ... [详细]
程序员
在JavaScript中,Equal to('=='和'===')之间的区别是什么？

如何解决《在JavaScript中,Equalto('=='和'===')之间的区别是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
可以ctest显示googletest控制台颜色

如何解决《可以ctest显示googletest控制台颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Akka Streams与Akka HTTP Server和Client

如何解决《AkkaStreams与AkkaHTTPServer和Client》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django在django-social-auth中出错

如何解决《Django在django-social-auth中出错》经验，为你挑选了2个好方法。 ... [详细]

贾志军

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章