Spark:并行处理多个kafka主题

作者：黄晓敏3023 | 2023-09-09 13:40

如何解决《Spark:并行处理多个kafka主题》经验，为你挑选了2个好方法。

我在用spark 1.5.2.我需要使用kafka作为流媒体源来运行spark streaming工作.我需要从kafka中的多个主题中读取并以不同方式处理每个主题.

在同一份工作中做这件事是个好主意吗？如果是这样,我应该为每个主题创建一个包含多个分区或不同流的单个流吗？

我正在使用kafka直接蒸汽.据我所知,spark为每个分区启动了长时间运行的接收器.我有一个相对较小的集群,6个节点,每个节点有4个核心.如果我在每个主题中都有很多主题和分区,那么效率是否会受到影响,因为大多数执行者都忙于长时间运行的接收器？如果我的理解是错误的,请纠正我

nish.. 20

我做了以下观察,以防它对某人有帮助:

在kafka直接流中,接收器不能作为长时间运行的任务运行.在每个批处理inerval的开头,首先从执行程序中的kafka读取数据.一旦阅读,处理部分就会接管.

如果我们创建具有多个主题的单个流,则会一个接一个地读取主题.此外,过滤dstream以应用不同的处理逻辑将为作业添加另一个步骤

创建多个流有两种方式:1.您不需要应用过滤器操作来以不同方式处理不同的主题.2.您可以并行读取多个流(而不是单个流的情况下逐个读取).为此,有一个未记录的配置参数spark.streaming.concurrentJobs*.所以,我决定创建多个流.

sparkConf.set("spark.streaming.concurrentJobs", "4");

Atul Soman.. 6

我认为正确的解决方案取决于您的用例.

如果您的处理逻辑对于来自所有主题的数据是相同的,那么毫无疑问,这是一种更好的方法.

如果处理逻辑不同,我猜你从所有主题中得到一个RDD,你必须为每个处理逻辑创建一个pairedrdd并单独处理它.问题在于,这会创建一种分组处理,整体处理速度将由需要最长时间处理的主题确定.因此,数据较少的主题必须等到处理所有主题的数据.一个优点是,如果它是时间序列数据,那么处理一起进行,这可能是一件好事.

运行独立作业的另一个好处是可以更好地控制并调整资源共享.例如:处理具有高吞吐量的主题的作业可以被分配更高的CPU /内存.

1> nish..：

我做了以下观察,以防它对某人有帮助:

在kafka直接流中,接收器不能作为长时间运行的任务运行.在每个批处理inerval的开头,首先从执行程序中的kafka读取数据.一旦阅读,处理部分就会接管.

如果我们创建具有多个主题的单个流,则会一个接一个地读取主题.此外,过滤dstream以应用不同的处理逻辑将为作业添加另一个步骤

sparkConf.set("spark.streaming.concurrentJobs", "4");

2> Atul Soman..：

我认为正确的解决方案取决于您的用例.

如果您的处理逻辑对于来自所有主题的数据是相同的,那么毫无疑问,这是一种更好的方法.

运行独立作业的另一个好处是可以更好地控制并调整资源共享.例如:处理具有高吞吐量的主题的作业可以被分配更高的CPU /内存.

推荐阅读

程序员
将带空格字符的字符串参数传递给内核模块

如何解决《将带空格字符的字符串参数传递给内核模块》经验，为你挑选了1个好方法。 ... [详细]
程序员
Git分支在Jenkins中用groovy脚本选择

如何解决《Git分支在Jenkins中用groovy脚本选择》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自UITableView的错误值:iOS8中的rowHeight

如何解决《来自UITableView的错误值:iOS8中的rowHeight》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用jasmine模拟函数调用

如何解决《使用jasmine模拟函数调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
SharePoint 2010 Web服务上的Java JBoss 401错误

如何解决《SharePoint2010Web服务上的JavaJBoss401错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
在绘图箱上绘图 - 如何及时跟上鼠标移动？

如何解决《在绘图箱上绘图-如何及时跟上鼠标移动？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在每个<ul>的最后一个<li>之后删除所有文本？

如何解决《如何在每个<ul>的最后一个<li>之后删除所有文本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
摆动假设 - 红宝石中字符串数组的组合或排列

如何解决《摆动假设-红宝石中字符串数组的组合或排列》经验，为你挑选了1个好方法。 ... [详细]
程序员
Stata foreach回归循环错误

如何解决《Stataforeach回归循环错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用okHttp信任所有证书

如何解决《使用okHttp信任所有证书》经验，为你挑选了5个好方法。 ... [详细]
程序员
mock.patch()没有修补类调用函数调用内的几个级别的类

如何解决《mock.patch()没有修补类调用函数调用内的几个级别的类》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何找到R中最长的相同数字

如何解决《如何找到R中最长的相同数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在PX中设置DP的高度和宽度

如何解决《如何在PX中设置DP的高度和宽度》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Bootstrap在选项卡组件的末尾显示文本/按钮？

如何解决《如何使用Bootstrap在选项卡组件的末尾显示文本/按钮？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Spring数据JPA中做AND和多个OR参数方法

如何解决《如何在Spring数据JPA中做AND和多个OR参数方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
xcode 6.1更新后找不到#import <libxml/tree.h>文件

如何解决《xcode6.1更新后找不到#import<libxml/tree.h>文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Go切片中,为什么s [lo:hi]在元素hi-1处结束？

如何解决《在Go切片中,为什么s[lo:hi]在元素hi-1处结束？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rust没有运行helloworld示例

如何解决《Rust没有运行helloworld示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在创建新类时指定超类

如何解决《如何在创建新类时指定超类》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google协作平台API全文搜索不适用于非西方语言

如何解决《Google协作平台API全文搜索不适用于非西方语言》经验，为你挑选了0个好方法。 ... [详细]

黄晓敏3023

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章