文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

基于CUDA out of memory的解决方法是什么

2023-07-05 04:42

关注

今天小编给大家分享一下基于CUDA out of memory的解决方法是什么的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

CUDA out of memory的解决

我的输入样本维度是(1000,12,24,72),一开始我是这么输入数据的:

trainer.train(x_train, t_train, x_val, t_val)

发现必溢出,后来我取出其中400个样本输入:

trainer.train(x_train[:400], t_train[:400], x_val, t_val)

发现不溢出了,训练正常,然后我把400删掉,但没删冒号:

trainer.train(x_train[:], t_train[:], x_val, t_val)

竟然也没有溢出!!!虽然训练速度降了,但是也能正常训练,我不是很懂原理是啥,好神奇!

但是样本量一大起来,即使用冒号法还是可能会溢出。比方说我后来把4000个样本作为x/t_train:

>>>x_train.shape(4000,12,24,72)>>>t_train.shape(4000,24)>>>trainer.train(x_train[:], t_train[:], x_val, t_val)RuntimeError:CUDA out of memory...

之所以说“可能”会溢出,是因为确实是有小概率能正常训练的,但是大部分情况还是会out of memory…

再附上两个我昨天看到的两种不同的解决方案。

一个是减少带梯度的中间变量(即非叶子节点)。简言之,能一行代码搞定的,尽量不要写成多行,即使写成多行,也要尽可能减少新变量的建立。

另一个是在eval的时候,让所有的变量都不带梯度。只需要添加一行代码:

with torch.no_grad():    outputs = Net_(inputs)

在with语句里的所有变量requires_grad都是False。

CUDA error: out of memory问题

本人遇到的问题是在训练是正常,一到验证时就会出现cuda error: out of memory的问题

解决思路溯寻

首先就是考虑减少batch_size和num_worker,对于我的情况不奏效

然后找到pin_memory发现是设置的True,改为false,仍旧不管用

包括把

 # Empty GPU cache        if torch.cuda.is_available():            torch.cuda.empty_cache()

放到报错位置的前后,不奏效

后来再聚焦问题关键,是一到验证就会出问题,所以专门查攻略,我初步怀疑是因为验证没有参与反向传播,梯度累积,内存爆了,但当时代码中有with torch.no_grad(): ,所以并没有发现关键,知道看到别人里面 forword是放在with torch.no_grad()后面的,所以最后

with torch.no_grad():                # Forward pass                loss, np_probs, hv_logits = self.forward(images, targets)

以上就是“基于CUDA out of memory的解决方法是什么”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     801人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     348人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     311人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     432人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     220人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯