13赞

Pyspark:获取HDFS路径上的文件/目录列表

作者：mobiledu2402851203 | 2023-06-11 15:56

如何解决《Pyspark:获取HDFS路径上的文件/目录列表》经验，为你挑选了3个好方法。

如标题.我知道textFile,但顾名思义,它仅适用于文本文件.我需要访问HDFS(或本地路径)上的路径内的文件/目录.我正在使用pyspark

感谢帮助

1> volhv..：

使用JVM网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration


fs = FileSystem.get(URI("hdfs://somehost:8020"), Configuration())

status = fs.listStatus(Path('/some_dir/yet_another_one_dir/'))

for fileStatus in status:
    print(fileStatus.getPath())


        
如果要过滤结果,请使用`globStatus`而不是`fileStatus`,例如`status = fs.globStatus(Path('/ some_dir/yet_another_one_dir/*.csv'))` 

2> Darius M...：
如果使用PySpark,则可以交互方式执行命令:



列出所选目录中的所有文件:

hdfs dfs -ls 例如hdfs dfs -ls /user/path::

import os
import subprocess

cmd = 'hdfs dfs -ls /user/path'
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
  print path




或者搜索所选目录中的文件:

hdfs dfs -find  -name 例如hdfs dfs -find /user/path -name *.txt::

import os
import subprocess

cmd = 'hdfs dfs -find {} -name *.txt'.format(source_dir)
files = subprocess.check_output(cmd, shell=True).strip().split('\n')
for path in files:
  filename = path.split(os.path.sep)[-1].split('.txt')[0]
  print path, filename

        

3> Tristan Reid..：
我认为将Spark仅视为一种数据处理工具是有帮助的,其中一个域开始加载数据.它可以读取多种格式,并且它支持Hadoop glob表达式,这对于从HDFS中的多个路径读取非常有用,但是它没有我知道的用于遍历目录或文件的内置工具,也没有特定于与Hadoop或HDFS交互的实用程序.

有一些可用的工具可以做你想要的,包括esutil和hdfs.HDFS的LIB支持CLI和API都,您可以直接跳转到"我怎么列出在Python HDFS文件的正确位置.它看起来像这样:

from hdfs import Config
client = Config().get_client('dev')
files = client.list('the_dir_path')

        
嗨，您能指导我如何制作该hdfscli.cfg文件，我不知道要放置哪个端口号。[global] default.alias = dev [dev.alias] url = http：//dev.namenode：port用户= ann



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Java 8函数<String,Void> vs Consumer <String>
                    

                    
                                                
                        如何解决《Java8函数<String,Void>vsConsumer<String>》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift_TransportException·无法与主机smtp.sendgrid.net建立连接[连接超时#110]
                    

                    
                                                
                        如何解决《Swift_TransportException·无法与主机smtp.sendgrid.net建立连接[连接超时#110]》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        GIT分支机构如何运作？
                    

                    
                                                
                        如何解决《GIT分支机构如何运作？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用JavaScript操作HTML元素
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何使用JavaScript操作HTML元素》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在生产中运行rails console而不执行弹簧？
                    

                    
                                                
                        如何解决《如何在生产中运行railsconsole而不执行弹簧？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用Nightwatch访问iFrame元素
                    

                    
                                                
                        如何解决《使用Nightwatch访问iFrame元素》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swing图形不会显示 -  Java
                    

                    
                                                
                        如何解决《Swing图形不会显示-Java》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        与"流媒体"实施相反
                    

                    
                                                
                        如何解决《与"流媒体"实施相反》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Akka消息中发送期货好吗？
                    

                    
                                                
                        如何解决《在Akka消息中发送期货好吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        检查列表Python中的特定数字
                    

                    
                                                
                        如何解决《检查列表Python中的特定数字》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        IIS 8中的Websockets反向代理
                    

                    
                                                
                        如何解决《IIS8中的Websockets反向代理》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Bootstrap导航不会在仿真/真实设备上折叠
                    

                    
                                                
                        如何解决《Bootstrap导航不会在仿真/真实设备上折叠》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用TOR浏览器绑定Python Selenium
                    

                    
                                                
                            
                        
                                                
                        如何解决《使用TOR浏览器绑定PythonSelenium》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android使用MSGPack Core和Jackson Mapper  - 解码未知类型的类变量
                    

                    
                                                
                        如何解决《Android使用MSGPackCore和JacksonMapper-解码未知类型的类变量》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在ASP.NET Web API上获取对象？
                    

                    
                                                
                        如何解决《如何在ASP.NETWebAPI上获取对象？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从本地源安装anaconda库
                    

                    
                                                
                        如何解决《从本地源安装anaconda库》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        python中的成语:闭包与仿函数对象
                    

                    
                                                
                        如何解决《python中的成语:闭包与仿函数对象》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在一行中编写并行循环迭代(列表具有不等长度)
                    

                    
                                                
                        如何解决《如何在一行中编写并行循环迭代(列表具有不等长度)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Javascript画布游戏 - 碰撞检测
                    

                    
                                                
                        如何解决《Javascript画布游戏-碰撞检测》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在SPA应用程序中正确使用ASP.NET 5中的AntiForgery令牌？
                    

                    
                                                
                        如何解决《在SPA应用程序中正确使用ASP.NET5中的AntiForgery令牌？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                mobiledu2402851203            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1如何在Startup.cs文件中获取ASP.NET MVC应用程序的基本URL？
                
                                
                    2jQuery UI datepicker的属性选项
                
                                
                    3nginx parllel上传问题表单提交
                
                                
                    4无法在Swift中导入ObjectMapper
                
                                
                    5如何重命名Perl的Moose模块提供的默认构造函数？
                
                                
                    6有没有办法强制docker-machine用特定的ip创建vm？
                
                                
                    7JavaScript中的IndexOf方法比遍历数组更有效吗？
                
                                
                    8"apktool:命令未找到"错误
                
                                
                    9Julia  - 访问for循环中的两个元素
                
                                
                    10如何从属性文件的服务器路径获取URL位置
                
                                
                    11NSDateFormatter显示不正确的分钟值
                
                                
                    12Inno Setup:如何操作Run部分的进度条？
                
                                
                    13使用ReactiveUI和Windows窗体绑定到ComboBox
                
                                
                    14SQL Query显示工单的顺序
                
                                
                    15图像使用Glide和SimpleTarget随机加载到视图寻呼机中
                
                                
                    16summernote中的font-family选项不起作用
                
                                
                    17注入错误:无法解析所有参数
                
                                
                    18知道它是Id,从js数组中删除对象
                
                                
                    19使用ODP.NET,从Oracle DB表的列信息创建C#类/结构
                
                                
                    20如何在android项目属性中启用调试(Xamarin Android)