Spark是否可以“包装”并运行外部进程来管理其输入和输出?
该过程由通常从命令行运行的普通C / C ++应用程序表示。它接受纯文本文件作为输入,并生成另一个纯文本文件作为输出。当我需要将此应用程序的流程与更大的对象(始终在Spark中)集成时,我在想是否有办法做到这一点。
该过程可以轻松地并行运行(目前使用GNU Parallel),只需将其输入拆分为(例如)10个零件文件,在其内存中运行10个实例,然后将最后的10个零件文件重新合并为一个即可文件。