这是每日/每周安排Spark Jobs的推荐工具.1)Oozie 2)Luigi 3)Azkaban 4)Chronos 5)气流
提前致谢.
从此处更新我之前的答案:建议用于构建基于hadoop的数据管道的调度工具
气流:先试试这个.体面的UI,Python-ish作业定义,非程序员半可访问,依赖声明语法很奇怪.
Airflow已经支持这样的事实,即预定的工作岗位通常需要重新运行和/或回填.确保构建管道以支持此功能.
Azkaban:非常好的UI,相对简单,非程序员可以访问.LinkedIn上有悠久的历史.
Azkaban强制简单(不能使用不存在的功能),其他巧妙地鼓励复杂性.
查看Azkaban CLI项目以创建程序化作业.https://github.com/mtth/azkaban(示例https://github.com/joeharris76/azkaban_examples)
Luigi:OK UI,工作流程是纯Python,需要扎实掌握Python编码和面向对象的概念,因此不适合非程序员.
Oozie:疯狂的基于XML的作业定义.这里是龙.;-)
Chronos:¯\ _(ツ)_ /¯
哲学:
更简单的流水线比复杂的流水线更好:更易于创建,更易于理解(尤其是在您不创建时)并且更易于调试/修复.
当需要复杂操作时,您希望以完全成功或完全失败的方式封装它们.
如果你可以使它幂等(再次运行它会产生相同的结果),那就更好了.