16赞

AWS EMR - IntelliJ远程调试Spark应用程序

作者：ar_wen2402851455 | 2023-06-11 10:46

如何解决《AWSEMR-IntelliJ远程调试Spark应用程序》经验，为你挑选了1个好方法。

我想调试在AWS EMR集群上运行的Spark应用程序.如果我可以使用IntelliJ远程连接和调试它将是太棒了.我搜索过但发现很少.

有可能,如果是这样,有人可以指出我正确的方向吗？

谢谢.

1> DoctorPanglo..：

首先,我要提醒您,由于众多错误和AWS EMR的意外使用案例,您尝试做的事情基本上是不可能的.我强烈建议您支付最大的单个实例来运行您的工作(他们拥有c4.8xlarge经济实惠的终端和x1.32xlarge真正的疯狂!),只需spark在该实例内部安装并运行您的工作.

先决条件

您的VPC必须正确配置,以允许任何与外界的连接.这意味着您的Internet网关正常工作.您可以通过启动具有EC2密钥对的群集来进行测试,修改主服务器的安全组以允许来自您的计算机的SSH连接(默认情况下它们自然不会这样做)并尝试从您的计算机连接到主服务器.如果你不能这样做,你将无法调试.我甚至无法在没有其他配置的新集群上满足此先决条件!

必须可以从Internet访问运行IntelliJ以进行调试的计算机.要对此进行测试,请修改主实例的安全组,以允许在端口5005 nc -l 5005上与计算机建立出站连接.然后,在您的计算机上运行.SSH进入你的主人并尝试echo "test" | nc your_ip_address 5005.test在您的机器终端上看到之前,请不要继续.

IntelliJ设置

创建新的远程配置.将调试器模式更改为Listen.命名配置并保存.当你点击调试时,它将等待连接.在该窗口中,您将看到"运行远程JVM的命令行参数",读取如下内容:

-agentlib:jdwp=transport=dt_socket,server=n,address=localhost:5005,suspend=y

你可以像我一样删除onthrow和oncaught行.假设您的调试机器可通过Internet访问24.13.242.141.假装它实际上是读:

-agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y

我们将使用它来设置Spark进程的调试.

Spark设置

有两个可以调试的进程:驱动程序进程(执行SparkContext实例化的代码)和执行程序进程.最终,您将这些JVM选项传递给特殊参数以spark-submit使连接发生.要调试驱动程序,请使用

spark-submit --driver-java-options -agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y --class ...

对于调试执行程序进程,您将使用配置选项:

spark-submit --conf "spark.executor.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y" --class ...

调试执行程序是非常棘手的,因为会有多个进程.您无法以IntelliJ中的想象方式真正调试多个进程.此外,您无法在AWS EMR中将执行程序的数量限制为1,即使他们声称您可以.我相信如果其他执行程序失败(他们将无法连接到您的调试会话时),这是可以的.但这一步未经测试.

把它们放在一起

您可以spark-submit使用SDK和Web控制台修改两者的参数.请注意,在SDK中,您不应该尝试自己连接"args" - 将它们作为数组项传递给它,就像它要求的那样.

您需要从群集开始时修改主安全组,以便调试驱动程序(同样使用从属安全组来调试执行程序).创建一个安全组,允许出站连接到调试器的IP地址和端口(即TCP Outbound到24.13.242.141:5005).您应该使用该条目创建一个安全组,并使用AWS SDK(.withAdditionalMasterSecurityGroups(...))将其添加到主/从作业流实例配置的安全组.我不知道如何从Web控制台执行此操作.

一些常见的陷阱

确保使用Gradle生成带classpath "com.github.jengelman.gradle.plugins:shadow:1.2.4"插件的阴影罐.另外,启用Zip64.您将把:shadowJar任务结果上传到S3以在AWS EMR上实际执行.

buildscript {
    repositories {
        mavenCentral()
        maven {
            url "https://plugins.gradle.org/m2/"
        }
    }
    dependencies {
        classpath "com.github.jengelman.gradle.plugins:shadow:1.2.4"
    }
}

apply plugin: "com.github.johnrengelman.shadow"

shadowJar {
    zip64 true
}




确保使用--deploy-mode cluster和--master yarn(基本上没有文档)启动Spark应用程序.
为了从EMR中的驱动程序或执行程序内部访问S3,请不要进行修改sc.hadoopConfiguration()(例如,configuration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem");).根本不要配置这些属性!hadoop-aws默认情况下,在EMR环境中正常工作,并自动设置相应的属性.
将log4j日志记录选项设置为仅报告WARN和更高.在此SDK中,您将执行以下操作:


.withConfigurations(new Configuration()
    .withClassification("spark-log4j")
    .addPropertiesEntry("log4j.rootCategory", "WARN, console"))



containers/applications_.../container.../stderr.gz在打扰调试之前,请检查日志中的错误!
如果您看到此错误,"WARN YarnClusterScheduler:初始作业未接受任何资源;检查您的集群UI以确保工作者已注册并具有足够的资源",请在容器日志中确保添加分类的maximizeResourceAllocation配置属性spark.


new Configuration()
        .withClassification("spark")
        .addPropertiesEntry("maximizeResourceAllocation", "true"))



不要忘记在驱动程序结束时关闭上下文(sc.close()).否则,Yarn永远不会开始.好笑无言.
shadow JAR中的资源只能由与资源相同的"JAR"内的类加载.换句话说,不要使用ClassLoader.getSystemClassLoader().如果class A通常a.jar想要访问资源b.jar,并且class B是一个类b.jar,请使用B.class.getClassLoader().getResource....此外,使用相对路径(省略资源引用开头的正斜杠).我建议捕捉NullPointerException并尝试两者,这样无论打包方式如何,你的JAR都能正常工作.
如果您使用实现Function接口和类似的类,请确保创建一个无参数构造函数,执行您可能依赖的所有初始化.Spark对闭包和函数实例使用Kryo序列化(而不是Java序列化),如果你忽略了使用特定于应用程序的初始化代码(例如,从资源加载)提供无参数构造函数,则不会执行所有操作你期望的初始化.

        
我什至不想再尝试了。反正...很好的回应



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        如何访问超出范围的变量？
                    

                    
                                                
                        如何解决《如何访问超出范围的变量？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        多个字段的单个parsley.js错误消息
                    

                    
                                                
                        如何解决《多个字段的单个parsley.js错误消息》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法使用Laravel 5迁移添加外键约束
                    

                    
                                                
                            
                        
                                                
                        如何解决《无法使用Laravel5迁移添加外键约束》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        与骆驼案相关的Laravel多态关系问题
                    

                    
                                                
                        如何解决《与骆驼案相关的Laravel多态关系问题》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如果它们通过java包装在缓冲区中,我是否必须明确关闭所有流？
                    

                    
                                                
                        如何解决《如果它们通过java包装在缓冲区中,我是否必须明确关闭所有流？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        std ::成员指针行为的元组
                    

                    
                                                
                        如何解决《std::成员指针行为的元组》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        dask包没有使用所有核心？备择方案？
                    

                    
                                                
                        如何解决《dask包没有使用所有核心？备择方案？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何比较PL/SQL过程中的日期？
                    

                    
                                                
                        如何解决《如何比较PL/SQL过程中的日期？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将Laravel输出的日期格式更改为JSON？
                    

                    
                                                
                        如何解决《如何将Laravel输出的日期格式更改为JSON？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        空指针异常,只有当我尝试数组形式的类型时
                    

                    
                                                
                        如何解决《空指针异常,只有当我尝试数组形式的类型时》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        具有全宽边框的嵌套列表项？
                    

                    
                                                
                        如何解决《具有全宽边框的嵌套列表项？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        文档转换Watson服务无法正常工作？
                    

                    
                                                
                        如何解决《文档转换Watson服务无法正常工作？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用VBA打开受密码保护的工作簿
                    

                    
                                                
                        如何解决《使用VBA打开受密码保护的工作簿》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将JSONPath过滤器应用于具有空格的字段
                    

                    
                                                
                        如何解决《将JSONPath过滤器应用于具有空格的字段》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        WebStorm:模块未在package.json依赖项中列出
                    

                    
                                                
                        如何解决《WebStorm:模块未在package.json依赖项中列出》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        将值分配给Pandas中的多个列
                    

                    
                                                
                        如何解决《将值分配给Pandas中的多个列》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我如何跳过foreach循环中的空格？
                    

                    
                                                
                        如何解决《我如何跳过foreach循环中的空格？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将包含现有文件的本地项目导入Source树
                    

                    
                                                
                        如何解决《如何将包含现有文件的本地项目导入Source树》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在每页上加载Visual Composer(AJAX安装程序)
                    

                    
                                                
                        如何解决《在每页上加载VisualComposer(AJAX安装程序)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        了解iOS中的收据验证和收据刷新
                    

                    
                                                
                        如何解决《了解iOS中的收据验证和收据刷新》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                ar_wen2402851455            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    eclipse
                
                                
                    emacs
                
                                
                    git
                
                                
                    github
                
                                
                    intellij-idea
                
                                
                    macos
                
                                
                    phpstorm
                
                                
                    pycharm
                
                                
                    sublime-text
                
                                
                    svn
                
                                
                    vim
                
                                
                    visual-studio
                
                                
                    visual-studio-code
                
                                
                    webstorm
                
                                
                    windows
                
                                
                    编辑器
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在Anaconda中安装Plotly
                
                                
                    2检测数字输入微调器点击
                
                                
                    3如何使用自定义创建的地图框样式以及传单
                
                                
                    4比较std :: stringstream的内容
                
                                
                    5将UIScrollView委托设置为它自己的自定义类
                
                                
                    6获取控制器中Spring启动/安全性的会话令牌
                
                                
                    7从数据库返回字符串值
                
                                
                    8将自定义列添加到Magento报表和销售信息中心
                
                                
                    9JSDoc的输出可以组织成"文件夹"吗？
                
                                
                    10ES6导出/导入索引文件
                
                                
                    11收集实时GC指标 -  Golang
                
                                
                    12如何在visual Studio 2013中阻止"尝试从状态为TextDocDataAvailable的适配器获取视图"失败？
                
                                
                    13用于打开上次关闭选项卡的Sublime文本快捷方式
                
                                
                    14错误后重试相同的项目
                
                                
                    15Cassandra create table不会保持列顺序
                
                                
                    16Android OkHttp库:GET请求 - 异常EOFException:\n未找到:size = 0 content =
                
                                
                    17为什么"错误:使用unique_ptr将'sizeof'无效应用于不完整类型"通过添加空析构函数来修复？
                
                                
                    18Java HashMap没有从key获得价值
                
                                
                    19什么时候我们应该使用RTLD_DEEPBIND？
                
                                
                    20以编程方式向Python函数添加“装饰器”