我使用python的spark,我有一个过滤器约束如下:
my_rdd.filter(my_func)
其中my_func是我写的一个方法,用于根据我自己的逻辑过滤rdd项.我已经将my_func定义如下:
def my_func(my_item): { ... }
现在,我想将另一个单独的参数传递给my_func,除了进入它的项目.我怎样才能做到这一点?我知道my_item会引用一个来自my_rdd的项目,我如何将自己的参数(比方说my_param)作为my_func的附加参数传递?
使用下面的lambda语法并使用额外的参数修改my_func:
my_rdd.filter(lambda row: my_func(row,extra_parameter))