8赞

解决pytorch GPU 计算过程中出现内存耗尽的问题

作者：小妖694_807 | 2022-10-17 16:11

今天小编就为大家分享一篇解决pytorchGPU计算过程中出现内存耗尽的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pytorch GPU运算过程中会出现：“cuda runtime error(2): out of memory”这样的错误。通常，这种错误是由于在循环中使用全局变量当做累加器，且累加梯度信息的缘故，用官方的说法就是："accumulate history across your training loop"。在默认情况下，开启梯度计算的Tensor变量是会在GPU保持他的历史数据的，所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息。

下面举个栗子：

上代码：

total_loss=0
for i in range(10000):
  optimizer.zero_grad()
  output=model(input)
  loss=criterion(output)
  loss.backward()
  optimizer.step()
  total_loss+=loss
  #这里total_loss是跨越循环的变量，起着累加的作用，
  #loss变量是带有梯度的tensor，会保持历史梯度信息，在循环过程中会不断积累梯度信息到tota_loss，占用内存

以上例子的修正方法是在循环中的最后一句修改为：total_loss+=float(loss)，利用类型变换解除梯度信息，这样，多次累加不会累加梯度信息。

局部变量逗留导致内存泄露

局部变量通常在变量作用域之外会被Python自动销毁，在作用域之内，不需要的临时变量可以使用del x来销毁。

在设计Linear Layers 的时候，尽量让其规模小点

对于nn.Linear(m,n)这样规模的线性函数，他的空间规模为O(mn),除此规模的空间来容纳参数意外，还需要同样规模的空间来存储梯度，由此很容易造成GPU空间溢出。

相关的进程管理bash cmd

nvidia-smi监控GPU，

watch -n 1 nvidia-smi实时监控GPU，

watch -n 1 lscpu实时监控CPU，

ps -elf进程查看，

ps -elf | grep python查看Python子进程，

kill -9 [PID]杀死进程PID。

Referance:

Pytorch documentations

以上这篇解决pytorch GPU 计算过程中出现内存耗尽的问题就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
将变量传递给工厂angularjs

如何解决《将变量传递给工厂angularjs》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java unmarshilling JSON数据包含抽象类型

如何解决《JavaunmarshillingJSON数据包含抽象类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Capybara - 访问()不使用Firefox

如何解决《Capybara-访问()不使用Firefox》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHP PDO:Charset = UTF8:在dsn字符串中指定了无效的关键字字符集

如何解决《PHPPDO:Charset=UTF8:在dsn字符串中指定了无效的关键字字符集》经验，为你挑选了1个好方法。 ... [详细]
程序员
ActiveRecord:使用where子句时不考虑毫秒数

如何解决《ActiveRecord:使用where子句时不考虑毫秒数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何返回与给定字符串匹配的枚举值？

如何解决《如何返回与给定字符串匹配的枚举值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这可以用CSS完成吗？

如何解决《这可以用CSS完成吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Django South - 如何在Django应用程序上重置迁移历史记录并开始清理

如何解决《DjangoSouth-如何在Django应用程序上重置迁移历史记录并开始清理》经验，为你挑选了1个好方法。 ... [详细]
程序员
Clojure:减法中的舍入不一致

如何解决《Clojure:减法中的舍入不一致》经验，为你挑选了1个好方法。 ... [详细]
程序员
查询对象和规范模式之间的差异

如何解决《查询对象和规范模式之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebSocket可以动态切换其binaryType吗？

如何解决《WebSocket可以动态切换其binaryType吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
该行在c ++中意味着什么

如何解决《该行在c++中意味着什么》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用自定义wiki创建Fork GitHub项目

如何解决《使用自定义wiki创建ForkGitHub项目》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么相同的git脚本产生不同的哈希？

如何解决《为什么相同的git脚本产生不同的哈希？》经验，为你挑选了1个好方法。 ... [详细]
程序员
睡眠不适用于pyqt4

如何解决《睡眠不适用于pyqt4》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的流浪者vm上的木偶代理不能连接到我的vm上的puppetmaster服务？

如何解决《为什么我的流浪者vm上的木偶代理不能连接到我的vm上的puppetmaster服务？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Web API:使用CancellationToken的DelegatingHandler

如何解决《WebAPI:使用CancellationToken的DelegatingHandler》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在java中将字符串集合转换为字符串数组

如何解决《如何在java中将字符串集合转换为字符串数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
基本的PHP页面不起作用

如何解决《基本的PHP页面不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何投放Youtube等视频？几乎即时发挥和快速寻求

如何解决《如何投放Youtube等视频？几乎即时发挥和快速寻求》经验，为你挑选了0个好方法。 ... [详细]

小妖694_807

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章