我正在运行几个脚本,我不断收到同样的错误.所有这些都是具有相同条件的多表连接.
数据存储为镶木地板.
Hive版本1.2.1/MR
SELECT count(*) FROM xxx.tmp_usr_1 m INNER JOIN xxx.tmp_usr n ON m.date_id = n.date_id AND m.end_user_id = n.end_user_id LEFT JOIN xxx.usr_2 p ON m.date_id = p.date_id AND m.end_user_id = p.end_user_id;
这是错误消息:
2017-01-22 16:47:55,208 Stage-1 map = 54%,reduce = 0%,累计CPU 560.81秒2017-01-22 16:47:56,248 Stage-1 map = 58%,reduce = 0%,累计CPU 577.74秒2017-01-22 16:47:57,290 Stage-1 map = 100%,reduce = 100%,累计CPU 446.32 sec MapReduce累计CPU总时间:7分26秒320毫秒已结束作业= job_1484710871657_6350有错误错误作业过程中,获得的调试信息...检查任务ID:task_1484710871657_6350_m_000061(及以上),从工作job_1484710871657_6350检查任务ID:从工作task_1484710871657_6350_m_000069(及以上)job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000053(及以上),从工作job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000011 (以及更多)来自job job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000063(及以上),从工作job_1484710871657_6350检查任务ID:从工作job_1484710871657_6350检查任务ID task_1484710871657_6350_m_000049(及以上):从工作task_1484710871657_6350_m_000052(及以上)job_1484710871657_6350任务最失败(4):-----任务ID:task_1484710871657_6350_m_000071网址: HTTP://xxxxxxxxxx/taskdetails.jsp作业ID = job_1484710871657_6350&tipid = task_1484710871657_6350_m_000071 根据要求杀死容器.退出代码为143 Container退出,退出代码为非零
我的数据包含大约20M条记录.当我尝试使用一列(end_user_id)连接表时,我得到相同的错误.
连接列是相同的数据类型.将B连接作为子查询,然后加入C可以解决此问题.
我们有许多具有相同条件的多表连接语句的SQL查询,但只有少数SQL脚本遇到这些错误.