我无法理解为什么dropout在tensorflow中这样工作.CS231n的博客说,"dropout is implemented by only keeping a neuron active with some probability p (a hyperparameter), or setting it to zero otherwise."
你也可以从图片中看到这个(取自同一网站)
来自tensorflow网站, With probability keep_prob, outputs the input element scaled up by 1 / keep_prob, otherwise outputs 0.
现在,为什么输入元素按比例放大1/keep_prob
?为什么不保持输入元素的概率而不是用它来缩放1/keep_prob
?
这种扩展使得相同的网络可用于训练(使用keep_prob < 1.0
)和评估(使用keep_prob == 1.0
).从辍学文件:
这个想法是在测试时使用单个神经网络而不会丢失.该网络的权重是训练权重的缩小版本.如果在训练期间以概率p保留单位,则在测试时间将该单位的输出权重乘以p,如图2所示.
而不是增加OPS通过按比例缩小的权重keep_prob
,在测试时,TensorFlow实现增加了一个运算规模增长的权重1. / keep_prob
,在训练时间.对性能的影响可忽略不计,并且所述代码是简单的(因为我们使用相同的曲线图和治疗keep_prob
作为tf.placeholder()
被馈送取决于是否我们正在训练或评估该网络的不同的值).