7赞

聊聊PyTorch中eval和no_grad的关系

作者：Life一切安好 | 2022-10-14 16:16

这篇文章主要介绍了聊聊PyTorch中eval和no_grad的关系，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

首先这两者有着本质上区别

model.eval()是用来告知model内的各个layer采取eval模式工作。这个操作主要是应对诸如dropout和batchnorm这些在训练模式下需要采取不同操作的特殊layer。训练和测试的时候都可以开启。

torch.no_grad()则是告知自动求导引擎不要进行求导操作。这个操作的意义在于加速计算、节约内存。但是由于没有gradient，也就没有办法进行backward。所以只能在测试的时候开启。

所以在evaluate的时候，需要同时使用两者。

model = ...
dataset = ...
loss_fun = ...

# training
lr=0.001
model.train()
for x,y in dataset:
 model.zero_grad()
 p = model(x)
 l = loss_fun(p, y)
 l.backward()
 for p in model.parameters():
  p.data -= lr*p.grad
 
# evaluating
sum_loss = 0.0
model.eval()
with torch.no_grad():
 for x,y in dataset:
  p = model(x)
  l = loss_fun(p, y)
  sum_loss += l
print('total loss:', sum_loss)

另外no_grad还可以作为函数是修饰符来用，从而简化代码。

def train(model, dataset, loss_fun, lr=0.001):
 model.train()
 for x,y in dataset:
  model.zero_grad()
  p = model(x)
  l = loss_fun(p, y)
  l.backward()
  for p in model.parameters():
   p.data -= lr*p.grad
 
@torch.no_grad()
def test(model, dataset, loss_fun):
 sum_loss = 0.0
 model.eval()
 for x,y in dataset:
  p = model(x)
  l = loss_fun(p, y)
  sum_loss += l
 return sum_loss

# main block:
model = ...
dataset = ...
loss_fun = ...

# training
train()
# test
sum_loss = test()
print('total loss:', sum_loss)

补充：pytorch中model.train、model.eval以及torch.no_grad的用法

1、model.train()

启用 BatchNormalization 和 Dropout

model.train() 让model变成训练模式，此时 dropout和batch normalization的操作在训练起到防止网络过拟合的问题

2、model.eval()

不启用 BatchNormalization 和 Dropout

model.eval()，pytorch会自动把BN和DropOut固定住，而用训练好的值。不然的话，一旦test的batch_size过小，很容易就会被BN层导致所生成图片颜色失真极大

训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有batch normalization层所带来的的性质。

对于在训练和测试时为什么要这样做，可以从下面两段话理解：

在训练的时候, 会计算一个batch内的mean 和var，但是因为是小batch小batch的训练的，所以会采用加权或者动量的形式来将每个batch的 mean和var来累加起来，也就是说再算当前的batch的时候，其实当前的权重只是占了0.1, 之前所有训练过的占了0.9的权重，这样做的好处是不至于因为某一个batch太过奇葩而导致的训练不稳定。

好，现在假设训练完成了, 那么在整个训练集上面也得到了一个最终的”mean 和var”, BN层里面的参数也学习完了(如果指定学习的话),而现在需要测试了，测试的时候往往会一张图一张图的去测，这时候没有batch而言了，对单独一个数据做 mean和var是没有意义的, 那么怎么办，实际上在测试的时候BN里面用的mean和var就是训练结束后的mean_final 和 val_final. 也可说是在测试的时候BN就是一个变换。所以在用pytorch的时候要注意这一点，在训练之前要有model.train() 来告诉网络现在开启了训练模式，在eval的时候要用”model.eval()”, 用来告诉网络现在要进入测试模式了.因为这两种模式下BN的作用是不同的。

3、torch.no_grad()

这条语句的作用是：在测试时不进行梯度的计算，这样可以在测试时有效减小显存的占用，以免发生显存溢出（OOM）。

这条语句通常加在网络预测的那条代码上。

4、pytorch中model.eval()和“with torch.no_grad()区别

两者区别

在PyTorch中进行validation时，会使用model.eval()切换到测试模式，在该模式下，

主要用于通知dropout层和batchnorm层在train和val模式间切换

在train模式下，dropout网络层会按照设定的参数p设置保留激活单元的概率（保留概率=p); batchnorm层会继续计算数据的mean和var等参数并更新。

在val模式下，dropout层会让所有的激活单元都通过，而batchnorm层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。

该模式不会影响各层的gradient计算行为，即gradient计算和存储与training模式一样，只是不进行反传（backprobagation）

而with torch.zero_grad()则主要是用于停止autograd模块的工作，以起到加速和节省显存的作用，具体行为就是停止gradient计算，从而节省了GPU算力和显存，但是并不会影响dropout和batchnorm层的行为。

使用场景

如果不在意显存大小和计算时间的话，仅仅使用model.eval()已足够得到正确的validation的结果；而with torch.zero_grad()则是更进一步加速和节省gpu空间（因为不用计算和存储gradient），从而可以更快计算，也可以跑更大的batch来测试。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

推荐阅读

程序员
Service Fabric Reliable Collections:序列化问题

如何解决《ServiceFabricReliableCollections:序列化问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的多项式回归 - 对曲线有额外的约束

如何解决《R中的多项式回归-对曲线有额外的约束》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Eclipse Open Resource结果列表中排除某些项目/路径？

如何解决《如何在EclipseOpenResource结果列表中排除某些项目/路径？》经验，为你挑选了2个好方法。 ... [详细]
程序员
运行基于SpringBoot的docker镜像返回错误消息:jarfile /app.jar无效或损坏

如何解决《运行基于SpringBoot的docker镜像返回错误消息:jarfile/app.jar无效或损坏》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重新索引pandas数据帧以将起始索引值重置为零？

如何解决《如何重新索引pandas数据帧以将起始索引值重置为零？》经验，为你挑选了1个好方法。 ... [详细]
程序员
spring boot oauth2与jdbc令牌存储给出oauth_access_token关系不存在

如何解决《springbootoauth2与jdbc令牌存储给出oauth_access_token关系不存在》经验，为你挑选了1个好方法。 ... [详细]
程序员
CUDA __constant__尊重全球记忆.哪个缓存？

如何解决《CUDA__constant__尊重全球记忆.哪个缓存？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用mvnvm vs mvn？

如何解决《使用mvnvmvsmvn？》经验，为你挑选了1个好方法。 ... [详细]
程序员
HTML中有多个页面,而且没有JS

如何解决《HTML中有多个页面,而且没有JS》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用termios api检测字符设备是否已在Linux中断开连接(c ++)

如何解决《使用termiosapi检测字符设备是否已在Linux中断开连接(c++)》经验，为你挑选了0个好方法。 ... [详细]
程序员
带字符串响应的改造

如何解决《带字符串响应的改造》经验，为你挑选了1个好方法。 ... [详细]
程序员
在scikit-learn中进行一次热编码的可能方法？

如何解决《在scikit-learn中进行一次热编码的可能方法？》经验，为你挑选了2个好方法。 ... [详细]
程序员
NSOpenPanel在沙箱继承过程中崩溃

如何解决《NSOpenPanel在沙箱继承过程中崩溃》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在debian上安装apcu作为php7扩展

如何解决《如何在debian上安装apcu作为php7扩展》经验，为你挑选了3个好方法。 ... [详细]
程序员
Spring启动:使用oauth2保护api端点,同时拥有mvc UI页面

如何解决《Spring启动:使用oauth2保护api端点,同时拥有mvcUI页面》经验，为你挑选了0个好方法。 ... [详细]
程序员
查看C#编译器预编译的代码

如何解决《查看C#编译器预编译的代码》经验，为你挑选了1个好方法。 ... [详细]
程序员
JavaScript函数-用wheel事件一次调用吗？

如何解决《JavaScript函数-用wheel事件一次调用吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
按多个值排序字典

如何解决《按多个值排序字典》经验，为你挑选了2个好方法。 ... [详细]
程序员
更改默认的复制构造函数C++

如何解决《更改默认的复制构造函数C++》经验，为你挑选了1个好方法。 ... [详细]
程序员
Telegram Bot API中的"getFile"方法

如何解决《TelegramBotAPI中的"getFile"方法》经验，为你挑选了1个好方法。 ... [详细]

Life一切安好

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章