当前位置:  开发笔记 > 编程语言 > 正文

Pyspark:获取HDFS路径上的文件/目录列表

如何解决《Pyspark:获取HDFS路径上的文件/目录列表》经验,为你挑选了3个好方法。

如标题.我知道textFile,但顾名思义,它仅适用于文本文件.我需要访问HDFS(或本地路径)上的路径内的文件/目录.我正在使用pyspark

感谢帮助



1> volhv..:

使用JVM网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration


fs = FileSystem.get(URI("hdfs://somehost:8020"), Configuration())

status = fs.listStatus(Path('/some_dir/yet_another_one_dir/'))

for fileStatus in status:
    print(fileStatus.getPath())


如果要过滤结果,请使用`globStatus`而不是`fileStatus`,例如`status = fs.globStatus(Path('/ some_dir/yet_another_one_dir/*.csv'))`

2> Darius M...:

如果使用PySpark,则可以交互方式执行命令:


列出所选目录中的所有文件:

hdfs dfs -ls 例如hdfs dfs -ls /user/path::

import os
import subprocess

cmd = 'hdfs dfs -ls /user/path'
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
  print path

或者搜索所选目录中的文件:

hdfs dfs -find -name 例如hdfs dfs -find /user/path -name *.txt::

import os
import subprocess

cmd = 'hdfs dfs -find {} -name *.txt'.format(source_dir)
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
  filename = path.split(os.path.sep)[-1].split('.txt')[0]
  print path, filename



3> Tristan Reid..:

我认为将Spark仅视为一种数据处理工具是有帮助的,其中一个域开始加载数据.它可以读取多种格式,并且它支持Hadoop glob表达式,这对于从HDFS中的多个路径读取非常有用,但是它没有我知道的用于遍历目录或文件的内置工具,也没有特定于与Hadoop或HDFS交互的实用程序.

有一些可用的工具可以做你想要的,包括esutil和hdfs.HDFS的LIB支持CLI和API都,您可以直接跳转到"我怎么列出在Python HDFS文件的正确位置.它看起来像这样:

from hdfs import Config
client = Config().get_client('dev')
files = client.list('the_dir_path')


嗨,您能指导我如何制作该hdfscli.cfg文件,我不知道要放置哪个端口号。[global] default.alias = dev [dev.alias] url = http://dev.namenode:port用户= ann
推荐阅读
mobiledu2402851203
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有