当前位置:  开发笔记 > 编程语言 > 正文

从PySpark中的工作节点访问ADLS上的二进制文件的最有效方法是什么?

如何解决《从PySpark中的工作节点访问ADLS上的二进制文件的最有效方法是什么?》经验,为你挑选了0个好方法。

我已经为Azure Data Lake Store上的所有目录部署了一个具有rwx权限的Azure HDInsight群集,该目录也可用作其存储帐户.在头节点上,我可以使用以下命令从ADLS加载例如图像数据:

my_rdd = sc.binaryFiles('adl://{}.azuredatalakestore.net/my_file.png')

工作人员无权访问SparkContext的binaryFiles()功能.我可以使用azure-datalake-storePython SDK加载文件,但这似乎要慢得多.我假设因为它没有实现集群和ADLS之间关联的好处.

是否有更快的方法从工作人员的相关ADLS加载文件?

进一步的背景如果需要

我正在使用PySpark将训练有素的深度学习模型应用于大量图像.由于模型需要很长时间才能加载,我的理想是:

向每个工作人员发送要处理的部分图像URI列表(通过应用于mapPartition()包含完整列表的RDD)

让工作人员一次加载一个图像的数据,以便使用模型进行评分

返回图像集的模型结果

由于我不知道如何有效地在工作人员上加载图像,我现在最好的办法是对包含图像字节数据的RDD进行分区,这个(我假设)内存效率低,并且通过头节点产生瓶颈完成所有数据加载.

推荐阅读
LEEstarmmmmm
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有