基于CUDAoutofmemory的一种神奇解决方式-编程学习网

CUDA out of memory的解决

我的输入样本维度是(1000,12,24,72)，一开始我是这么输入数据的：

trainer.train(x_train, t_train, x_val, t_val)

发现必溢出，后来我取出其中400个样本输入：

trainer.train(x_train[:400], t_train[:400], x_val, t_val)

发现不溢出了，训练正常，然后我把400删掉，但没删冒号：

trainer.train(x_train[:], t_train[:], x_val, t_val)

竟然也没有溢出！！！虽然训练速度降了，但是也能正常训练，我不是很懂原理是啥，好神奇！

但是样本量一大起来，即使用冒号法还是可能会溢出。比方说我后来把4000个样本作为x/t_train：

>>>x_train.shape
(4000,12,24,72)
>>>t_train.shape
(4000,24)
>>>trainer.train(x_train[:], t_train[:], x_val, t_val)
RuntimeError:CUDA out of memory...

之所以说“可能”会溢出，是因为确实是有小概率能正常训练的，但是大部分情况还是会out of memory…

不过这真的是一个“神奇”的方法，能从一定程度上解决CUDA out of memory 的问题。希望大佬能解释一下这其中的原理~谢谢！

-------------------------------------------------------------------

再附上两个我昨天看到的两种不同的解决方案。

一个是减少带梯度的中间变量（即非叶子节点）。简言之，能一行代码搞定的，尽量不要写成多行，即使写成多行，也要尽可能减少新变量的建立。

另一个是在eval的时候，让所有的变量都不带梯度。只需要添加一行代码：

with torch.no_grad():
    outputs = Net_(inputs)

在with语句里的所有变量requires_grad都是False。

CUDA error: out of memory问题

本人遇到的问题是在训练是正常，一到验证时就会出现cuda error: out of memory的问题

解决思路溯寻

1.首先就是考虑减少batch_size和num_worker，对于我的情况不奏效

2.然后找到pin_memory发现是设置的True，改为false，仍旧不管用

3.包括把

 # Empty GPU cache
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

放到报错位置的前后，不奏效

4.后来再聚焦问题关键，是一到验证就会出问题，所以专门查攻略，我初步怀疑是因为验证没有参与反向传播，梯度累积，内存爆了，但当时代码中有with torch.no_grad(): ，所以并没有发现关键，知道看到别人里面 forword是放在with torch.no_grad()后面的，所以最后

with torch.no_grad():
                # Forward pass
                loss, np_probs, hv_logits = self.forward(images, targets)

问题解决！

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

文章详情

基于CUDAoutofmemory的一种神奇解决方式

目录

CUDA out of memory的解决

CUDA error: out of memory问题

解决思路溯寻

总结

软考中级精品资料免费领

相关文章

猜你喜欢

基于CUDAoutofmemory的一种神奇解决方式

神奇的方法：一劳永逸解决Github的各种报错

基于Android中实现定时器的3种解决方法

Java中关于线程安全的三种解决方式

解决pip下载慢的几种方式，最后一种一劳永逸

基于PostgreSQL/openGauss 的分布式数据库解决方案

基于Spring Boot给所有Controller接口添加统一前缀的五种方式

关于MySQL与Golan分布式事务经典的七种解决方案

卡巴斯基为基于Linux的嵌入式设备推出专用解决方案

是否有一种基于自然语言处理的存储方式比Go和Bash更好？

七种分布式系统的解决方案，一次性讲给你听！

编码中的Adapter，不仅是一种设计模式，更是一种架构理念与解决方案

细数基于ORACLE 数据库环境的常见数据灾难解决方式

SeaweedFS：基于Go语言实现次世代的分布式存储解决方案

通过AI捍卫AI，基于AI的下一代网络威胁解决方案

六方云分享：一种基于流量解析的未知威胁检测模型介绍

Windows7中启动Mysql服务时提示：拒绝访问的一种解决方式

面试官让我设计一个基于分布式锁的库存超卖方案，并发量很高那种

Ruo-Yi 前后端分离如何不登录直接访问以及一种基于配置文件实现的方式

一文带你看透本质—Redis的三种集群方式+穿透与雪崩的预防和解决