15赞

使用Apache Hadoop、Impala和MySQL进行数据分析_MySQL

作者：地之南_816 | 2021-08-28 13:59

使用ApacheHadoop、Impala和MySQL进行数据分析

Apache

Apache Hadoop是目前被大家广泛使用的数据分析平台，它可靠、高效、可伸缩。Percona公司的Alexander Rubin最近发表了一篇博客文章介绍了他是如何将一个表从MySQL导出到Hadoop然后将数据加载到Cloudera Impala并在这上面运行报告的。

在Alexander Rubin的这个测试示例中他使用的集群包含6个数据节点。下面是具体的规格：

用途	服务器规格
NameNode、DataNode、Hive 元数据存储等	2x PowerEdge 2950, 2x L5335 CPU @ 2.00GHz, 8 cores, 16GB RAM, 使用8个SAS驱动器的RAID 10
仅做数据节点	4x PowerEdge SC1425, 2x Xeon CPU @ 3.00GHz, 2 cores, 8GB RAM, 单个4TB 驱动器

数据导出

有很多方法可以将数据从MySQL导出到Hadoop。在Rubin的这个示例中，他简单地将ontime表导出到了一个文本文件中：

select*intooutfile '/tmp/ontime.psv'
FIELDS TERMINATED BY ','
fromontime;

你可以使用“|”或者任何其他的符号作为分隔符。当然，还可以使用下面这段简单的脚本直接从www.transtats.bts.gov上下载数据。

foryin{1988..2013}
do
foriin{1..12}
do
u="http://www.transtats.bts.gov/Download/On_Time_On_Time_Performance_${y}_${i}.zip"
wget $u -o ontime.log
unzipOn_Time_On_Time_Performance_${y}_${i}.zip
done
done

载入Hadoop HDFS

Rubin首先将数据载入到了HDFS中作为一组文件。Hive或者Impala将会使用导入数据的那个目录，连接该目录下的所有文件。在Rubin的示例中，他在HDFS上创建了/data/ontime/目录，然后将本地所有匹配On_Time_On_Time_Performance_*.csv模式的文件复制到了该目录下。

$ hdfs dfs -mkdir /data/ontime/
$ hdfs -v dfs -copyFromLocalOn_Time_On_Time_Performance_*.csv /data/ontime/

在Impala中创建外部表

当所有数据文件都被载入之后接下来需要创建一个外部表：

CREATE EXTERNAL TABLE ontime_csv (
YearDint,
Quartertinyint ,
MonthDtinyint ,
DayofMonthtinyint ,
DayOfWeektinyint ,
FlightDatestring,
UniqueCarrierstring,
AirlineIDint,
Carrierstring,
TailNumstring,
FlightNumstring,
OriginAirportIDint,
OriginAirportSeqIDint,
OriginCityMarketIDint,
Originstring,
OriginCityNamestring,
OriginStatestring,
OriginStateFipsstring,
OriginStateNamestring,
OriginWacint,
DestAirportIDint,
DestAirportSeqIDint,
DestCityMarketIDint,
Deststring,
...
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/data/ontime';

注意“EXTERNAL”关键词和LOCATION，后者指向HDFS中的一个目录而不是文件。Impala仅会创建元信息，不会修改表。创建之后就能立即查询该表，在Rubin的这个示例中执行的SQL是：

>selectyeard, count(*)fromontime_psv groupbyyeard;

该SQL耗时131.38秒。注意GROUP BY并不会对行进行排序，这一点不同于MySQL，如果要排序需要添加 ORDER BY yeard语句。另外通过执行计划我们能够发现Impala需要扫描大小约为45.68GB的文件。

Impala使用面向列的格式和压缩

Impala最大的好处就是它支持面向列的格式和压缩。Rubin尝试了新的使用Snappy压缩算法的Parquet格式。因为这个例子使用的表非常大，所以最好使用基于列的格式。为了使用Parquet格式，首先需要载入数据，这在Impala中已经有表、HDFS中已经有文件的情况下是非常容易实现的。本示例大约使用了729秒的时间导入了约1亿5千万条记录，导入之后使用新表再次执行同一个查询所耗费的时间只有4.17秒，扫描的数据量也小了很多，压缩之后的数据只有3.95GB。

Impala复杂查询示例

select
min(yeard), max(yeard),Carrier, count(*)ascnt,
sum(if(ArrDelayMinutes>30, 1, 0))asflights_delayed,
round(sum(if(ArrDelayMinutes>30, 1, 0))/count(*),2)asrate
FROM ontime_parquet_snappy
WHERE
DayOfWeeknotin(6,7)andOriginStatenotin('AK', 'HI', 'PR', 'VI')
andDestStatenotin('AK', 'HI', 'PR', 'VI')
andflightdate < '2010-01-01'
GROUPbycarrier
HAVING cnt > 100000andmax(yeard) > 1990
ORDERbyrate DESC
LIMIT 1000;

注意：以上查询不支持sum(ArrDelayMinutes>30)语法，需要使用sum(if(ArrDelayMinutes>30, 1, 0) 代替。另外查询故意被设计为不使用索引：大部分条件仅会过滤掉不到30%的数据。

该查询耗时15.28秒比最初的MySQL结果（非并行执行时15分56.40秒，并行执行时5分47秒）要快很多。当然，它们之间并不是一个“对等的比较”：

MySQL将扫描45GB的数据而使用Parquet的Impala仅会扫描3.5GB的数据
MySQL运行在一台服务器上，而Hadoop和Impala则并行运行在6台服务器上

尽管如此，Hadoop和Impala在性能方面的表现依然令人印象深刻，同时还能够支持扩展，因此在大数据分析场景中它能为我们提供很多帮助。

感谢崔康对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博（@InfoQ）或者腾讯微博（@InfoQ）关注我们，并与我们的编辑和其他读者朋友交流。

推荐阅读

程序员
如何在不引起UB的情况下将字节序列重新解释为POD结构？

如何解决《如何在不引起UB的情况下将字节序列重新解释为POD结构？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在带有DI的Play 2.4中,如何在"安全"特性中使用服务类？

如何解决《在带有DI的Play2.4中,如何在"安全"特性中使用服务类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
传递结构指针与传递结构

如何解决《传递结构指针与传递结构》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让apache将帖子上的状态200响应代码返回到URL

如何解决《如何让apache将帖子上的状态200响应代码返回到URL》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么此多处理代码失败？

如何解决《为什么此多处理代码失败？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在react-bootstrap输入组件上输入键事件处理程序

如何解决《在react-bootstrap输入组件上输入键事件处理程序》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用具有不同前缀和后缀表达式的共享子表达式进行正则表达式更改

如何解决《使用具有不同前缀和后缀表达式的共享子表达式进行正则表达式更改》经验，为你挑选了0个好方法。 ... [详细]
程序员
当从接收者的意图中获得额外收益时，抛出NullPointerException。仅在华为设备上

如何解决《当从接收者的意图中获得额外收益时，抛出NullPointerException。仅在华为设备上》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何根据订购排序

如何解决《如何根据订购排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
UWP CommandBar重叠

如何解决《UWPCommandBar重叠》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么5 [a]有效并且不会生成无效标识符的错误？

如何解决《为什么5[a]有效并且不会生成无效标识符的错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
以编程方式更改MenuItem Navigation Drawer Android的图标？

如何解决《以编程方式更改MenuItemNavigationDrawerAndroid的图标？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果它们存在于另一个列表中,如何更新List <Objects>中的所有重复项？

如何解决《如果它们存在于另一个列表中,如何更新List<Objects>中的所有重复项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在发布数据时维护ViewBag值

如何解决《在发布数据时维护ViewBag值》经验，为你挑选了1个好方法。 ... [详细]
程序员
从bootstrap formhelper验证bootstrap datepicker

如何解决《从bootstrapformhelper验证bootstrapdatepicker》经验，为你挑选了0个好方法。 ... [详细]
程序员
scala中内部函数的占位符

如何解决《scala中内部函数的占位符》经验，为你挑选了1个好方法。 ... [详细]
程序员
React native Invariant Violation:id 2错误的回调

如何解决《ReactnativeInvariantViolation:id2错误的回调》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何转换DateTimeOffset？到C＃中的DateTime？

如何解决《如何转换DateTimeOffset？到C＃中的DateTime？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jsfiddle的新UI破坏了我的角度和javascript小提琴

如何解决《Jsfiddle的新UI破坏了我的角度和javascript小提琴》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++ Simple IF子句更改静态const char变量的值

如何解决《C++SimpleIF子句更改静态constchar变量的值》经验，为你挑选了1个好方法。 ... [详细]

地之南_816

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章