11赞

Pig Latin:从日期范围加载多个文件(目录结构的一部分)

作者：路人甲 | 2023-07-02 11:04

如何解决《PigLatin:从日期范围加载多个文件(目录结构的一部分)》经验，为你挑选了4个好方法。

我有以下情况 -

猪版使用0.70

HDFS目录结构示例:

/user/training/test/20100810/
/user/training/test/20100811/
/user/training/test/20100812/
/user/training/test/20100813/
/user/training/test/20100814/

正如您在上面列出的路径中看到的,其中一个目录名称是日期戳.

问题:我想从20100810到20100813之间的日期范围加载文件.

我可以将日期范围的'from'和'to'作为参数传递给Pig脚本,但是如何在LOAD语句中使用这些参数.我能够做到以下几点

temp = LOAD '/user/training/test/{20100810,20100811,20100812}' USING SomeLoader() AS (...);

以下适用于hadoop:

hadoop fs -ls /user/training/test/{20100810..20100813}

但是当我在猪脚本中尝试使用LOAD时它失败了.如何利用传递给Pig脚本的参数从日期范围加载数据？

错误日志如下:

Backend error message during job submission
-------------------------------------------
org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Unable to create input splits for: hdfs://.com/user/training/test/{20100810..20100813}
        at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:269)
        at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:858)
        at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:875)
        at org.apache.hadoop.mapred.JobClient.access$500(JobClient.java:170)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:793)
        at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:752)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1062)
        at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:752)
        at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:726)
        at org.apache.hadoop.mapred.jobcontrol.Job.submit(Job.java:378)
        at org.apache.hadoop.mapred.jobcontrol.JobControl.startReadyJobs(JobControl.java:247)
        at org.apache.hadoop.mapred.jobcontrol.JobControl.run(JobControl.java:279)
        at java.lang.Thread.run(Thread.java:619)
Caused by: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern hdfs://.com/user/training/test/{20100810..20100813} matches 0 files
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:231)
        at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat.listStatus(PigTextInputFormat.java:36)
        at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:248)
        at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:258)
        ... 14 more



Pig Stack Trace
---------------
ERROR 2997: Unable to recreate exception from backend error: org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Unable to create input splits for: hdfs://.com/user/training/test/{20100810..20100813}

org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1066: Unable to open iterator for alias test
        at org.apache.pig.PigServer.openIterator(PigServer.java:521)
        at org.apache.pig.tools.grunt.GruntParser.processDump(GruntParser.java:544)
        at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:241)
        at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:162)
        at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:138)
        at org.apache.pig.tools.grunt.Grunt.run(Grunt.java:75)
        at org.apache.pig.Main.main(Main.java:357)
Caused by: org.apache.pig.backend.executionengine.ExecException: ERROR 2997: Unable to recreate exception from backend error: org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Unable to create input splits for: hdfs://.com/user/training/test/{20100810..20100813}
        at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.Launcher.getStats(Launcher.java:169)

我是否需要使用像Python这样的更高语言来捕获范围内的所有日期戳,并将它们作为逗号分隔列表传递给LOAD？

干杯

1> Romain..：

正如zjffdu所说,路径扩展是由shell完成的.解决问题的一种常见方法是简单地使用Pig参数(这是使脚本更加可恢复的好方法):

贝壳:

pig -f script.pig -param input=/user/training/test/{20100810..20100812}

script.pig:

temp = LOAD '$input' USING SomeLoader() AS (...);

2> Mark Tozzi..：

Pig正在使用hadoop文件glob实用程序处理你的文件名模式,而不是shell的glob实用程序.这里记录了 Hadoop .如您所见,hadoop不支持范围的'..'运算符.在我看来,你有两个选择 - 要么{date1,date2,date2,...,dateN}手工写出列表,如果这是一个罕见的用例可能是要走的路,或者写一个包装脚本为你生成该列表.从日期范围构建这样的列表对于您选择的脚本语言来说应该是一项微不足道的任务.对于我的应用程序,我已经使用生成的列表路径,它工作正常(CHD3分发).

链接更新http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/fs/FileSystem.html#globStatus%28org.apache.hadoop.fs.Path

3> 小智..：

当我在尝试在脚本中创建文件glob然后将其作为参数传递到pig脚本时,我遇到了这个答案.

目前的答案都没有适用于我的情况,但我确实找到了一个可能有用的一般答案.

在我的情况下,shell扩展正在发生,然后将其传递到脚本中 - 导致猪解析器完全出现问题,这是可以理解的.

因此,通过简单地用双引号包围glob来保护它不被shell扩展,并将其原样传递给命令.

不会工作:

$ pig -f my-pig-file.pig -p INPUTFILEMASK='/logs/file{01,02,06}.log' -p OTHERPARAM=6



将工作

$ pig -f my-pig-file.pig -p INPUTFILEMASK="/logs/file{01,02,06}.log" -p OTHERPARAM=6


我希望这可以为某些人带来痛苦和痛苦.

        

4> 小智..：
所以,因为这工作:

temp = LOAD '/user/training/test/{20100810,20100811,20100812}' USING SomeLoader()


但这不起作用:

temp = LOAD '/user/training/test/{20100810..20100812}' USING SomeLoader()


但是如果你想要一个跨越300天的日期范围并且将完整列表传递给LOAD则至少可以说是不优雅的.我想出了这个并且它有效.

假设您要将数据从2012-10-08加载到今天2013-02-14,您可以做的是

temp = LOAD '/user/training/test/{201210*,201211*,201212,2013*}' USING SomeLoader()


然后在那之后做一个过滤器

filtered = FILTER temp BY (the_date>='2012-10-08')



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Slack Bitbucket集成
                    

                    
                                                
                        如何解决《SlackBitbucket集成》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Sql查询 - 搜索包含通配符的varchar
                    

                    
                                                
                        如何解决《Sql查询-搜索包含通配符的varchar》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ImportError:没有名为cycler的模块
                    

                    
                                                
                        如何解决《ImportError:没有名为cycler的模块》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        键盘覆盖屏幕而不是推高布局？
                    

                    
                                                
                        如何解决《键盘覆盖屏幕而不是推高布局？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        contentful api markdown转换为HTML
                    

                    
                                                
                        如何解决《contentfulapimarkdown转换为HTML》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Javascript在Python中给出了相同算法的不同答案
                    

                    
                                                
                        如何解决《Javascript在Python中给出了相同算法的不同答案》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何用"yyyyMMdd Hmm"格式将字符串解析为DateTime？
                    

                    
                                                
                        如何解决《如何用"yyyyMMddHmm"格式将字符串解析为DateTime？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”
                    

                    
                                                
                            
                        
                                                
                        如何解决《詹金斯（Jenkins）存档失败说：“您必须提供营销或技术版本的价值。两者都找不到。”》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        适用于Android 4.0.3(API 15)及以下版本的TextView.getMaxLines()的替代方法
                    

                    
                                                
                        如何解决《适用于Android4.0.3(API15)及以下版本的TextView.getMaxLines()的替代方法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在copytree()完成之前,print()不会打印
                    

                    
                                                
                        如何解决《在copytree()完成之前,print()不会打印》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        pandas.DataFrame可以有列表类型列吗？
                    

                    
                                                
                        如何解决《pandas.DataFrame可以有列表类型列吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用Spark Java返回静态html页面？
                    

                    
                                                
                        如何解决《如何使用SparkJava返回静态html页面？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Java的流中,Haskell的scanl相当于什么？
                    

                    
                                                
                        如何解决《在Java的流中,Haskell的scanl相当于什么？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用静态或非静态类
                    

                    
                                                
                        如何解决《使用静态或非静态类》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        NET :: ERR_CERT_AUTHORITY_INVALID https为红色
                    

                    
                                                
                            
                        
                                                
                        如何解决《NET::ERR_CERT_AUTHORITY_INVALIDhttps为红色》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用公共属性创建动态对象
                    

                    
                                                
                        如何解决《使用公共属性创建动态对象》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        不使用https的chrome 47中的getUserMedia()
                    

                    
                                                
                        如何解决《不使用https的chrome47中的getUserMedia()》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Symfony 3.0嵌套实体不保存
                    

                    
                                                
                        如何解决《Symfony3.0嵌套实体不保存》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        当使用jenkins运行测试时,iOS无法启动模拟器
                    

                    
                                                
                        如何解决《当使用jenkins运行测试时,iOS无法启动模拟器》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是否有可能使用杰克逊从Pojo获得价值
                    

                    
                                                
                        如何解决《是否有可能使用杰克逊从Pojo获得价值》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                路人甲            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1如何在Visual Studio中更改Build Command的默认行为
                
                                
                    2ViewPager的行为,它不会破坏旧的片段
                
                                
                    3在C中,如何获得带有前导零的int？
                
                                
                    4如何在反应原生中停止默认导航栏弹出滑动
                
                                
                    5尝试将文件从我的计算机复制到同一网络上的另一台计算机
                
                                
                    6在Linux上,GCC/pthread并行代码比简单的单线程代码慢得多
                
                                
                    7Django 1.8到1.9升级:django.core.exceptions.AppRegistryNotReady:尚未加载应用程序
                
                                
                    8如何在Android M中检查单个请求的多个权限？
                
                                
                    9为什么需要std :: minmax_element？
                
                                
                    10未捕获的ReferenceError:$未定义(PHP中的JavaScript/HTML)
                
                                
                    11为什么Visual Studio用List <T> .Count替换List <T> .Length？
                
                                
                    12替换JavaScript正则表达式中包含$＆的字符串
                
                                
                    13目标="_ blank"的超链接无法在新选项卡中打开
                
                                
                    14使用按位运算符的Misra违例
                
                                
                    15"GenerateJavaStubs"任务意外失败
                
                                
                    16Magento 2没有加载CSS和JavaScript
                
                                
                    17在Tinkerpop 3.1中找到两个节点之间最短路径的最佳方法
                
                                
                    18有CMake' -  install'开关吗？
                
                                
                    19向用户询问H.
                
                                
                    20在交互式地图上叠加shapefile或栅格