hive从mysql导入数据量变多的解决方案

作者：依然-狠幸福 | 2021-10-22 22:15

这篇文章主要介绍了hive从mysql导入数据量变多的解决方案，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

原始导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

原因分析：可能是mysql中字段里面有'\n'等分隔符，导入hive时默认以'n'作换行符，导致hive中的记录数变多。

解决方法：

导入数据时加上--hive-drop-import-delims选项，会删除字段中的\n,\r,\01。

最终导数命令：

bin/sqoop import -connect jdbc:mysql://192.168.169.128:3306/yubei -username root -password 123456 -table yl_city_mgr_evt_info --split-by rec_id -m 4 --hive-drop-import-delims --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite -create-hive-table -delete-target-dir -hive-database default -hive-table yl_city_mgr_evt_info

参考官方文档：https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html

补充：Sqoop导入MySQL数据到Hive遇到的坑

1.sqoop导入到HDFS

1.1执行sqoop job，会自动更新last value

# sqoop 增量导入脚本
bin/sqoop job --create sqoop_hdfs_test02 -- import \
--connect jdbc:mysql://localhost:3306/pactera_test \
--username root \
--password 123456 \
--table student \
--target-dir /user/sqoop/test002/ \
--fields-terminated-by "\t" \
--check-column last_modified \
--incremental lastmodified \
--last-value "2018-12-12 00:03:00" \
--append

说明：--append 参数是必须的，要不然第二次运行job 会报错，如下：

至此，sqoop job 已建设完毕！

2.Hive创建表，并读取sqoop导入的数据

create external table if not exists student_hive (SId int,Sname string ,Sage string,Ssex string , last_modified Timestamp) 
row format delimited fields terminated by '\t' location 'hdfs://node01:8020/user/sqoop/test002/';

注意：此处hive中时间的格式为timestamp，设置为date DB数据无法正常加载。

第一次全量加载，整条路线完全OK，hive表可以查询到数据。

-----------------------重点分割线-----------------------

* sqoop lastmodified格式的增量加载，会将last-value 保存为job执行的系统时间，若测试数据库的check-column 小于当前系统时间（即上一个job的last-value），则数据将不被加载。

如SId=6 就没有被加载，遂改为今日时间（2018-12-26 17:05）进行数据测试，数据成功被加载！哟呵！！

总结：

使用lastmodified格式，进行sqoop增量导入时，

1.注意--append的使用；

2.last-value为job运行的系统时间，在数据测试时，要保证数据的准确，数据的自增长。

3.一切皆有定数，查看资料，准确定位自己系统遇到的问题

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

推荐阅读

程序员
如何在chrome扩展开发中获取选定的文本？

如何解决《如何在chrome扩展开发中获取选定的文本？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Optional Java 8避免在List处理中进行"空检查"

如何解决《使用OptionalJava8避免在List处理中进行"空检查"》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的Arduino类构造函数需要参数？

如何解决《为什么我的Arduino类构造函数需要参数？》经验，为你挑选了2个好方法。 ... [详细]
程序员
二进制搜索树的析构函数

如何解决《二进制搜索树的析构函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Service Fabric Reliable Collections:序列化问题

如何解决《ServiceFabricReliableCollections:序列化问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的多项式回归 - 对曲线有额外的约束

如何解决《R中的多项式回归-对曲线有额外的约束》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Eclipse Open Resource结果列表中排除某些项目/路径？

如何解决《如何在EclipseOpenResource结果列表中排除某些项目/路径？》经验，为你挑选了2个好方法。 ... [详细]
程序员
运行基于SpringBoot的docker镜像返回错误消息:jarfile /app.jar无效或损坏

如何解决《运行基于SpringBoot的docker镜像返回错误消息:jarfile/app.jar无效或损坏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重新索引pandas数据帧以将起始索引值重置为零？

如何解决《如何重新索引pandas数据帧以将起始索引值重置为零？》经验，为你挑选了1个好方法。 ... [详细]
程序员
spring boot oauth2与jdbc令牌存储给出oauth_access_token关系不存在

如何解决《springbootoauth2与jdbc令牌存储给出oauth_access_token关系不存在》经验，为你挑选了1个好方法。 ... [详细]
程序员
CUDA __constant__尊重全球记忆.哪个缓存？

如何解决《CUDA__constant__尊重全球记忆.哪个缓存？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用mvnvm vs mvn？

如何解决《使用mvnvmvsmvn？》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTML中有多个页面,而且没有JS

如何解决《HTML中有多个页面,而且没有JS》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用termios api检测字符设备是否已在Linux中断开连接(c ++)

如何解决《使用termiosapi检测字符设备是否已在Linux中断开连接(c++)》经验，为你挑选了0个好方法。 ... [详细]
程序员
带字符串响应的改造

如何解决《带字符串响应的改造》经验，为你挑选了1个好方法。 ... [详细]
程序员
在scikit-learn中进行一次热编码的可能方法？

如何解决《在scikit-learn中进行一次热编码的可能方法？》经验，为你挑选了2个好方法。 ... [详细]
程序员
NSOpenPanel在沙箱继承过程中崩溃

如何解决《NSOpenPanel在沙箱继承过程中崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在debian上安装apcu作为php7扩展

如何解决《如何在debian上安装apcu作为php7扩展》经验，为你挑选了3个好方法。 ... [详细]
程序员
Spring启动:使用oauth2保护api端点,同时拥有mvc UI页面

如何解决《Spring启动:使用oauth2保护api端点,同时拥有mvcUI页面》经验，为你挑选了0个好方法。 ... [详细]
程序员
查看C#编译器预编译的代码

如何解决《查看C#编译器预编译的代码》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章