当前位置:  开发笔记 > 编程语言 > 正文

Spark:并行运行外部进程

如何解决《Spark:并行运行外部进程》经验,为你挑选了0个好方法。
如何解决《Spark:并行运行外部进程》经验,为你挑选了0个好方法。

Spark是否可以“包装”并运行外部进程来管理其输入和输出?

该过程由通常从命令行运行的普通C / C ++应用程序表示。它接受纯文本文件作为输入,并生成另一个纯文本文件作为输出。当我需要将此应用程序的流程与更大的对象(始终在Spark中)集成时,我在想是否有办法做到这一点。

该过程可以轻松地并行运行(目前使用GNU Parallel),只需将其输入拆分为(例如)10个零件文件,在其内存中运行10个实例,然后将最后的10个零件文件重新合并为一个即可文件。

推荐阅读
家具销售_903
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有