19赞

使用同步手段和变量来实现多GPU BN层的方法

作者：郑小蒜9299_941611_G | 2023-06-10 15:09

如何解决《使用同步手段和变量来实现多GPUBN层的方法》经验，为你挑选了0个好方法。

我想知道在使用多GPU进行训练时,通过同步批量统计来实现批量规范化层的可能方法.

Caffe也许有一些caffe可以做的变种,比如链接.但是对于BN层,我的理解是它仍然只同步层的输出,而不是平均值和变量.也许MPI可以同步手段和变量,但我认为MPI有点难以实现.

火炬我在这里和这里看到了一些评论,它们显示了running_mean和running_var可以同步,但我认为批量平均值和批量变量不能或难以同步.

Tensorflow通常,它与caffe和torch相同.BN的实施是指这一点.我知道tensorflow可以将操作分配给指定的任何设备tf.device().但是平均值和变量的计算是在BN层的中间,所以如果我在cpu中收集平均值和变量,我的代码将是这样的:

cpu_gather = []
label_batches = []
for i in range(num_gpu):
    with tf.device('/gpu:%d' % i):
        with tf.variable_scope('block1', reuse=i > 0):
            image_batch, label_batch = cifar_input.build_input('cifar10', train_data_path, batch_size, 'train')
            label_batches.append(label_batch)

            x = _conv('weights', image_batch, 3, 3, 16, _stride_arr(1))
            block1_gather.append(x)

with tf.device('/cpu:0'):
    print block1_gather[0].get_shape()
    x1 = tf.concat(block1_gather, 0)
    # print x1.get_shape()
    mean, variance = tf.nn.moments(x1, [0, 1, 2], name='moments')

for i in range(num_gpu):
    with tf.device('/gpu:%d' % i):
        with tf.variable_scope('block2', reuse=i > 0):
            shape = cpu_gather[i].get_shape().as_list()
            assert len(shape) in [2, 4]
            n_out = shape[-1]
            beta, gamma, moving_mean, moving_var = get_bn_variables(n_out, True, True)

            x = tf.nn.batch_normalization(
                cpu_gather[i], mean, variance, beta, gamma, 0.00001)

            x = _relu(x)



这仅适用于一个BN层.为了在cpu中收集统计信息,我必须打破代码.如果我有超过100个BN层,那将是麻烦的.

我不是那些图书馆的专家,所以也许有一些误解,随便指出我的错误. 

我不太关心训练速度.我正在进行图像分割,这会消耗大量的GPU内存,BN需要合理的批量大小(例如大于16)才能获得稳定的统计数据.因此使用多GPU是不可避免的.在我看来,张量流可能是最好的选择,但我无法解决破码问题.其他图书馆的解决方案也将受到欢迎.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        如何在按钮点击时调用或弹出片段
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在按钮点击时调用或弹出片段》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        GHC在cabal沙箱中找不到模块
                    

                    
                                                
                        如何解决《GHC在cabal沙箱中找不到模块》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何重新安排在scrapy中稍后要抓取的403 HTTP状态代码？
                    

                    
                                                
                        如何解决《如何重新安排在scrapy中稍后要抓取的403HTTP状态代码？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ngf-pattern不适用于ng-file-upload
                    

                    
                                                
                        如何解决《ngf-pattern不适用于ng-file-upload》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        具体化css模态不起作用
                    

                    
                                                
                        如何解决《具体化css模态不起作用》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        按第一个元素分组数组
                    

                    
                                                
                        如何解决《按第一个元素分组数组》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        等效于InsertonSubmit的实体框架
                    

                    
                                                
                        如何解决《等效于InsertonSubmit的实体框架》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        AngularJS:检测表单更改
                    

                    
                                                
                        如何解决《AngularJS:检测表单更改》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Elasticsearch中的加权随机抽样
                    

                    
                                                
                        如何解决《Elasticsearch中的加权随机抽样》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        priority_queue中第一个模板参数的用途是什么
                    

                    
                                                
                        如何解决《priority_queue中第一个模板参数的用途是什么》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        警告:[history] pushState已弃用; 用而不是推
                    

                    
                                                
                        如何解决《警告:[history]pushState已弃用;用而不是推》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用python反转单词字符串的顺序
                    

                    
                                                
                        如何解决《如何使用python反转单词字符串的顺序》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        谷歌protobuf最大尺寸
                    

                    
                                                
                        如何解决《谷歌protobuf最大尺寸》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        MapStyle更改时,GoogleMaps会更改图标的标记
                    

                    
                                                
                        如何解决《MapStyle更改时,GoogleMaps会更改图标的标记》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        JavaScript:hasOwnProperty vs dot语法
                    

                    
                                                
                        如何解决《JavaScript:hasOwnPropertyvsdot语法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Javascript dom操纵内存泄漏
                    

                    
                                                
                        如何解决《Javascriptdom操纵内存泄漏》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在迭代pandas数据帧时创建新列并插入行值
                    

                    
                                                
                        如何解决《如何在迭代pandas数据帧时创建新列并插入行值》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么当表达式中有另一个长值时,我的整数文字没有被提升为long类型？
                    

                    
                                                
                        如何解决《为什么当表达式中有另一个长值时,我的整数文字没有被提升为long类型？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在循环时退出此操作？
                    

                    
                                                
                        如何解决《如何在循环时退出此操作？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        PatternSyntaxException:Windows下`.split(File.separator)`的索引1附近出现意外的内部错误
                    

                    
                                                
                        如何解决《PatternSyntaxException:Windows下`.split(File.separator)`的索引1附近出现意外的内部错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                郑小蒜9299_941611_G            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    pytorch
                
                                
                    tensorflow
                
                                
                    人工智能
                
                                
                    人脸识别
                
                                
                    图像识别
                
                                
                    数据挖掘
                
                                
                    机器人
                
                                
                    机器学习
                
                                
                    深度学习
                
                                
                    神经网络
                
                                
                    算法
                
                                
                    自动驾驶
                
                                
                    自然语言处理
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1python日志记录模块在crontab中运行时没有输出
                
                                
                    2Ipython Notebook:关闭部分细胞的优雅方式？
                
                                
                    3eslint规则数组中的数字是什么意思？
                
                                
                    4Ruby on Rails  - 不使用资源路径的路径变量
                
                                
                    5通道是否为goroutine调度发送抢占点？
                
                                
                    6Math.floor的操作顺序(Math.random()*5 + 1)？
                
                                
                    7使用Pandas在MySQL中创建临时表
                
                                
                    8如何让kGADAdSizeSmartBannerPortrait工作
                
                                
                    9如何在pageInfo中将总计数传递给客户端
                
                                
                    10构建PBRT v2错误 - 错误1错误U1077:'if':返回代码'0x1'
                
                                
                    11火炬 - 如何改变张量类型？
                
                                
                    12Python:如何检查CSV文件中的单元格是否为空？
                
                                
                    13Angular ng-click无法使用$ compile
                
                                
                    14使用渲染脚本android旋转位图
                
                                
                    15如何解决我在尝试将C++与Assembly链接时遇到的链接器错误？
                
                                
                    16应该在提交历史中保持合并吗？
                
                                
                    17Python中的电源操作
                
                                
                    18Firebase部署不更新JS文件
                
                                
                    19将十进制（用户字符串）转换为带有0x前缀的十六进制
                
                                
                    20如何在matplotlib的轴刻度中删除小数点后的数字？