基于 Hive 的文件格式：RCFile 简介及其应用

作者：黄晓敏3023 | 2021-08-26 21:09

RCFile是Hive推出的一种专门面向列的数据格式。它遵循ldquo;先按列划分，再垂直划分rdquo;的设计理念。当查询过程中，针对它并

1、Hadoop 文件格式简介
（1）SequenceFile
（2）RCFile
（3）Avro
（4）文本格式
（5）外部格式
2、为什么需要 RCFile
3、RCFile 简介
4、超越RCFile，下一步采用什么方法
5、如何生成 RCFile 文件
（1）hive 中直接通过textfile表进行insert转换
（2）通过 mapreduce 生成
6、Refer：

Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。

1、hadoop 文件格式简介

目前 hadoop 中流行的文件格式有如下几种：

SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile，不过它的key为空，使用value 存放实际的值，这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile，并让Hive 读取的话，请确保使用value字段存放数据，否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。

（2）RCFile

RCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。需要说明的是，RCFile在map阶段从远端拷贝仍然是拷贝整个数据块，并且拷贝到本地目录后RCFile并不是真正直接跳过不需要的列，并跳到需要读取的列，而是通过扫描每一个row group的头部定义来实现的，但是在整个HDFS Block 级别的头部并没有定义每个列从哪个row group起始到哪个row group结束。所以在读取所有列的情况下，RCFile的性能反而没有SequenceFile高。

基于Hadoop集群的Hive安装

Hive内表和外表的区别

Hive详细教程

Hadoop + Hive + Map +reduce 集群安装部署

Hive本地独立模式安装

Hive学习之WordCount单词统计

HDFS块内行存储的例子

HDFS块内列存储的例子

HDFS块内RCFile方式存储的例子

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

（4）文本格式

除上面提到的3种二进制格式之外，文本格式的数据也是Hadoop中经常碰到的。如TextFile 、XML和JSON。文本格式除了会占用更多磁盘资源外，对它的解析开销一般会比二进制格式高几十倍以上，尤其是XML 和JSON，它们的解析开销比Textfile 还要大，因此强烈不建议在生产系统中使用这些格式进行储存。如果需要输出这些格式，请在客户端做相应的转换操作。文本格式经常会用于日志收集，数据库导入，Hive默认配置也是使用文本格式，而且常常容易忘了压缩，所以请确保使用了正确的格式。另外文本格式的一个缺点是它不具备类型和模式，比如销售金额、利润这类数值数据或者日期时间类型的数据，如果使用文本格式保存，由于它们本身的字符串类型的长短不一，，或者含有负数，导致MR没有办法排序，所以往往需要将它们预处理成含有模式的二进制格式，这又导致了不必要的预处理步骤的开销和储存资源的浪费。

（5）外部格式

Hadoop实际上支持任意文件格式，只要能够实现对应的RecordWriter和RecordReader即可。其中数据库格式也是会经常储存在Hadoop中，比如Hbase，Mysql，Cassandra，MongoDB。这些格式一般是为了避免大量的数据移动和快速装载的需求而用的。他们的序列化和反序列化都是由这些数据库格式的客户端完成，并且文件的储存位置和数据布局(Data Layout)不由Hadoop控制，他们的文件切分也不是按HDFS的块大小（blocksize）进行切割。

更多详情见请继续阅读下一页的精彩内容：

推荐阅读

程序员
如何将curl上传进度发送到要显示的ajax

如何解决《如何将curl上传进度发送到要显示的ajax》经验，为你挑选了0个好方法。 ... [详细]
程序员
C ++将类添加到名称空间：为什么？

如何解决《C++将类添加到名称空间：为什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
反应器代码中的Facebook Developer API

如何解决《反应器代码中的FacebookDeveloperAPI》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio 2015社区中找不到Web应用程序模板

如何解决《在VisualStudio2015社区中找不到Web应用程序模板》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Amazon S3下载文件？

如何解决《如何从AmazonS3下载文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
自Symfony 2.8生成捆绑包时,新选项询问了多个应用程序

如何解决《自Symfony2.8生成捆绑包时,新选项询问了多个应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何仅为特定URL添加Spring Security验证码过滤器

如何解决《如何仅为特定URL添加SpringSecurity验证码过滤器》经验，为你挑选了1个好方法。 ... [详细]
程序员
哪种类型的修复级别是"DBCC CHECKDB(databasename,repair)"？

如何解决《哪种类型的修复级别是"DBCCCHECKDB(databasename,repair)"？》经验，为你挑选了0个好方法。 ... [详细]
程序员
扩展单应矩阵以防止失真

如何解决《扩展单应矩阵以防止失真》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果int不是类,为什么int x = int(5)合法？

如何解决《如果int不是类,为什么intx=int(5)合法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015,无法更改新资源文件的访问修饰符

如何解决《VisualStudio2015,无法更改新资源文件的访问修饰符》经验，为你挑选了2个好方法。 ... [详细]
程序员
迭代不同的类型

如何解决《迭代不同的类型》经验，为你挑选了6个好方法。 ... [详细]
程序员
使用UIO驱动程序映射一对中断或较小的地址空间

如何解决《使用UIO驱动程序映射一对中断或较小的地址空间》经验，为你挑选了0个好方法。 ... [详细]
程序员
库存大楼

如何解决《库存大楼》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该有多少个分店？我怎么知道的？

如何解决《我应该有多少个分店？我怎么知道的？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular和Internet Explorer 11 - 输入无法正常工作

如何解决《Angular和InternetExplorer11-输入无法正常工作》经验，为你挑选了0个好方法。 ... [详细]
程序员
WebApi - 传递值数组

如何解决《WebApi-传递值数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haystack说"无法找到SearchResult的模型"

如何解决《Haystack说"无法找到SearchResult的模型"》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ansible变量覆盖默认为另一个角色

如何解决《Ansible变量覆盖默认为另一个角色》经验，为你挑选了0个好方法。 ... [详细]
程序员
可以在目标c中使用swift中的数组简化概念吗？

如何解决《可以在目标c中使用swift中的数组简化概念吗？》经验，为你挑选了1个好方法。 ... [详细]

黄晓敏3023

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章