如标题.我知道textFile,但顾名思义,它仅适用于文本文件.我需要访问HDFS(或本地路径)上的路径内的文件/目录.我正在使用pyspark
感谢帮助
使用JVM网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:
URI = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
fs = FileSystem.get(URI("hdfs://somehost:8020"), Configuration())
status = fs.listStatus(Path('/some_dir/yet_another_one_dir/'))
for fileStatus in status:
print(fileStatus.getPath())
如果使用PySpark,则可以交互方式执行命令:
列出所选目录中的所有文件:
hdfs dfs -ls
例如hdfs dfs -ls /user/path
::
import os
import subprocess
cmd = 'hdfs dfs -ls /user/path'
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
print path
或者搜索所选目录中的文件:
hdfs dfs -find
例如hdfs dfs -find /user/path -name *.txt
::
import os
import subprocess
cmd = 'hdfs dfs -find {} -name *.txt'.format(source_dir)
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
filename = path.split(os.path.sep)[-1].split('.txt')[0]
print path, filename
我认为将Spark仅视为一种数据处理工具是有帮助的,其中一个域开始加载数据.它可以读取多种格式,并且它支持Hadoop glob表达式,这对于从HDFS中的多个路径读取非常有用,但是它没有我知道的用于遍历目录或文件的内置工具,也没有特定于与Hadoop或HDFS交互的实用程序.
有一些可用的工具可以做你想要的,包括esutil和hdfs.HDFS的LIB支持CLI和API都,您可以直接跳转到"我怎么列出在Python HDFS文件的正确位置.它看起来像这样:
from hdfs import Config
client = Config().get_client('dev')
files = client.list('the_dir_path')