什么时候文件"可拆分"？

作者：个性2402852463 | 2023-09-10 15:50

如何解决《什么时候文件"可拆分"？》经验，为你挑选了1个好方法。

当我使用spark时,我有时会在HIVE表中遇到一个巨大的文件,我有时会尝试在HIVE表中处理许多较小的文件.

我知道在调整spark工作时,它的工作原理取决于文件是否可拆分.在cloudera的这个页面中,它说我们应该知道这些文件是否可以拆分:

...例如,如果您的数据到达几个大的不可分割的文件......

我怎么知道我的文件是否可拆分？

如果文件是可拆分的,我如何知道要使用的分区数？

如果我正在尝试编写一段可以在任何HIVE表上工作的代码,即上述两种情况中的任何一种,那么在更多分区方面犯错是否更好？

Ravindra bab.. 7

考虑到Spark接受Hadoop输入文件,请看下面的图像.

只有bzip2格式化的文件是可拆分的,其他格式如zlib, gzip, LZO, LZ4 and Snappy格式不可拆分.

关于您对分区的查询,分区不依赖于您将要使用的文件格式.它取决于文件中的内容 - 分区列的值,如日期等.

在此输入图像描述

编辑1: 看看这个SE问题和Spark读取zip文件的这个工作代码.

JavaPairRDD fileNameContentsRDD = javaSparkContext.wholeTextFiles(args[0]);
        JavaRDD lineCounts = fileNameContentsRDD.map(new Function, String>() {
            @Override
            public String call(Tuple2 fileNameContent) throws Exception {
                String content = fileNameContent._2();
                int numLines = content.split("[\r\n]+").length;
                return fileNameContent._1() + ":  " + numLines;
            }
        });
        List output = lineCounts.collect();

编辑2:

LZO文件可以拆分.

只要分块出现在块边界上,就可以拆分LZO文件

有关更多详细信息,请参阅此文章.

1> Ravindra bab..：

考虑到Spark接受Hadoop输入文件,请看下面的图像.

只有bzip2格式化的文件是可拆分的,其他格式如zlib, gzip, LZO, LZ4 and Snappy格式不可拆分.

关于您对分区的查询,分区不依赖于您将要使用的文件格式.它取决于文件中的内容 - 分区列的值,如日期等.

在此输入图像描述

编辑1: 看看这个SE问题和Spark读取zip文件的这个工作代码.

JavaPairRDD fileNameContentsRDD = javaSparkContext.wholeTextFiles(args[0]);
        JavaRDD lineCounts = fileNameContentsRDD.map(new Function, String>() {
            @Override
            public String call(Tuple2 fileNameContent) throws Exception {
                String content = fileNameContent._2();
                int numLines = content.split("[\r\n]+").length;
                return fileNameContent._1() + ":  " + numLines;
            }
        });
        List output = lineCounts.collect();

编辑2:

LZO文件可以拆分.

只要分块出现在块边界上,就可以拆分LZO文件

有关更多详细信息,请参阅此文章.

推荐阅读

程序员
为什么不透明样式在SearchBar上不起作用？

如何解决《为什么不透明样式在SearchBar上不起作用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL:SELECT UNIQUE VALUE

如何解决《MySQL:SELECTUNIQUEVALUE》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过一系列运算符进行迭代

如何解决《通过一系列运算符进行迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio 2015 Update 1中找不到模块'angular2/core'

如何解决《在VisualStudio2015Update1中找不到模块'angular2/core'》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么在这个赋值中无效:`Map <String,Object> mObj = new HashMap <String,String []>();`？

如何解决《什么在这个赋值中无效:`Map<String,Object>mObj=newHashMap<String,String[]>();`？》经验，为你挑选了2个好方法。 ... [详细]
程序员
容器borderRadius被子视图覆盖,这是一个bug吗？

如何解决《容器borderRadius被子视图覆盖,这是一个bug吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从c#中的列表列表中获取不同的元素

如何解决《如何从c#中的列表列表中获取不同的元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
提交应用时,"符号文件太多"会发出警告

如何解决《提交应用时,"符号文件太多"会发出警告》经验，为你挑选了1个好方法。 ... [详细]
程序员
单元测试Java开关 - 案例逻辑 - 多个单独的函数或多个调用

如何解决《单元测试Java开关-案例逻辑-多个单独的函数或多个调用》经验，为你挑选了1个好方法。 ... [详细]
程序员
在shell脚本中,for循环中的'if-else'是如何执行的？为什么它只为变量打印一次？

如何解决《在shell脚本中,for循环中的'if-else'是如何执行的？为什么它只为变量打印一次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
知道变量占用多少内存的正确方法是什么

如何解决《知道变量占用多少内存的正确方法是什么》经验，为你挑选了1个好方法。 ... [详细]
程序员
md-select不更新模型

如何解决《md-select不更新模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
域对象,工厂和存储库之间的依赖关系

如何解决《域对象,工厂和存储库之间的依赖关系》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查是否在芹菜任务

如何解决《检查是否在芹菜任务》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++:基类中的String参数在派生类解构时解构

如何解决《C++:基类中的String参数在派生类解构时解构》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Maven中替换文件的正确方法是什么？

如何解决《在Maven中替换文件的正确方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OCaml中创建大量线程？

如何解决《如何在OCaml中创建大量线程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以将谷歌博客网站嵌入我的网站

如何解决《我可以将谷歌博客网站嵌入我的网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
检测未初始化对象的类型

如何解决《检测未初始化对象的类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
当gulp为应用程序提供服务时,如何在webstorm中调试Javascript

如何解决《当gulp为应用程序提供服务时,如何在webstorm中调试Javascript》经验，为你挑选了0个好方法。 ... [详细]

个性2402852463

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章