当前位置:  开发笔记 > 编程语言 > 正文

Spark spark-submit --jars参数想要逗号列表,如何声明jar的目录?

如何解决《Sparkspark-submit--jars参数想要逗号列表,如何声明jar的目录?》经验,为你挑选了1个好方法。

在Spark文档中提交应用程序时,从1.6.0及更早版本开始,目前尚不清楚如何指定--jars参数,因为它显然不是冒号分隔的类路径而不是目录扩展.

文档说"捆绑jar的路径,包括你的应用程序和所有依赖项.URL必须在集群内部全局可见,例如,hdfs://路径或所有节点上都存在的file://路径. "

问题:在$ SPARK_HOME/bin的spark-submit脚本中使用--jars提交类路径的所有选项有哪些?任何未记录的内容可以作为文档的改进提交?

我问,因为当我测试 - 今天的时候,我们必须明确地提供每个jar的路径:

/usr/local/spark/bin/spark-submit --class jpsgcs.thold.PipeLinkageData ---jars=local:/usr/local/spark/jars/groovy-all-2.3.3.jar,local:/usr/local/spark/jars/guava-14.0.1.jar,local:/usr/local/spark/jars/jopt-simple-4.6.jar,local:/usr/local/spark/jars/jpsgcs-core-1.0.8-2.jar,local:/usr/local/spark/jars/jpsgcs-pipe-1.0.6-7.jar /usr/local/spark/jars/thold-0.0.1-1.jar

我们选择在每个worker上的/ usr/local/spark/jars中使用所有jar预填充集群,似乎如果没有提供local:/ file:/或hdfs:那么默认为file:/并且驱动程序使驱动程序运行的Web服务器上的jar可用.我选择了本地,如上所述.

而且似乎我们不需要将主jar放在--jars参数中,我还没有测试过最后一个参数中的其他类(application-jar arg per docs,即/ usr/local/spark/jars/thold-0.0.1-1.jar)被发送给worker,或者如果我需要将application-jar放在-jars路径中以获取未在--class之后命名的类.

(并且使用--deploy-mode客户端使用Spark独立模式授予,您还必须在每个worker上放置驱动程序的副本,但您不知道哪个worker会运行驱动程序)



1> Ram Ghadiyar..:

通过这种方式,它很容易工作..而不是分别指定每个jar版本..

#!/bin/sh
# build all other dependent jars in OTHER_JARS

JARS=`find ../lib -name '*.jar'`
OTHER_JARS=""
   for eachjarinlib in $JARS ; do    
if [ "$eachjarinlib" != "APPLICATIONJARTOBEADDEDSEPERATELY.JAR" ]; then
       OTHER_JARS=$eachjarinlib,$OTHER_JARS
fi
done
echo ---final list of jars are : $OTHER_JARS
echo $CLASSPATH

spark-submit --verbose --class 
... OTHER OPTIONS
--jars $OTHER_JARS,APPLICATIONJARTOBEADDEDSEPERATELY.JAR

使用trunix命令也可以像下面的示例一样帮助.

--jars $(echo /dir_of_jars/*.jar | tr ' ' ',')


这是另一个更简单的选项--jars $(echo /dir/of/jars/*.jar | tr''',')
推荐阅读
臭小子
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有