当前位置:  开发笔记 > 大数据 > 正文

具有HDFS的Tensorflow数据集API

如何解决《具有HDFS的Tensorflow数据集API》经验,为你挑选了1个好方法。

我们已经在HDFS目录中存储了* .tfrecord文件的列表。我想使用新的Dataset API,但给出的唯一示例是使用旧的filequeue和string_input_producer(https://www.tensorflow.org/deploy/hadoop)。这些方法使得很难产生时期。

是否可以将HDFS与Dataset API结合使用?



1> mrry..:

HDFS文件系统层可与旧的基于队列的API和新的tf.dataAPI一起使用。假设您已根据TensorFlow / Hadoop部署指南配置了系统,则可以使用以下代码基于HDFS中的文件创建数据集:

dataset = tf.data.TFRecordDataset(["hdfs://namenode:8020/path/to/file1.tfrecords",
                                   "hdfs://namenode:8020/path/to/file2.tfrecords"])
dataset = dataset.map(lambda record: tf.parse_single_example(record, ...)
# ...

请注意,由于HDFS是分布式文件系统,因此您可以从“输入管道性能指南”的“并行数据提取”部分中的一些建议中受益。

推荐阅读
保佑欣疼你的芯疼
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有