一行代码消除 PyTorch 的 CUDA 内存溢出报错，这个 GitHub 项目刚发布就揽星 600+

js 原创

2021-12-20 电脑百科网

多少人用 PyTorch“炼丹”时都会被这个 bug 困扰。

CUDA error: out of memory.

代码截图

一般情况下，你得找出当下占显存的没用的程序，然后 kill 掉。如果不行，还需手动调整 batch size 到合适的大小，有点麻烦。

现在，有人写了一个 PyTorch wrapper，用一行代码就能“无痛”消除这个 bug。

有多厉害？

相关项目在 GitHub 才发布没几天就收获了 600 + 星。

一行代码解决内存溢出错误

软件包名叫 koila，已经上传 PyPI，先安装一下：

pip install koila

现在，假如你面对这样一个 PyTorch 项目：构建一个神经网络来对 FashionMNIST 数据集中的图像进行分类。

先定义 input、label 和 model：

# A batch of MNIST image input = torch.randn(8, 28, 28) # A batch of labels label = torch.randn(0, 10, [8]) class NeuralNetwork(Module):     def __init__(self):         super(NeuralNetwork, self).__init__()         self.flatten = Flatten()         self.linear_relu_stack = Sequential(             Linear(28 * 28, 512),             ReLU(),             Linear(512, 512),             ReLU(),             Linear(512, 10),         )         
    def forward(self, x):         x = self.flatten(x)         logits = self.linear_relu_stack(x)         return logits

然后定义 loss 函数、计算输出和 losses。

loss_fn = CrossEntropyLoss() # Calculate losses out = nn(t) loss = loss_fn(out, label) # Backward pass nn.zero_grad() loss.backward()

好了，如何使用 koila 来防止内存溢出？

超级简单！

只需在第一行代码，也就是把输入用 lazy 张量 wrap 起来，并指定 bacth 维度，koila 就能自动帮你计算剩余的 GPU 内存并使用正确的 batch size 了。

在本例中，batch=0，则修改如下：

input = lazy(torch.randn(8, 28, 28), batch=0)

完事儿！就这样和 PyTorch“炼丹”时的 OOM 报错说拜拜。

灵感来自 TensorFlow 的静态 / 懒惰评估

下面就来说说 koila 背后的工作原理。

“CUDA error: out of memory”这个报错通常发生在前向传递（forward pass）中，因为这时需要保存很多临时变量。

koila 的灵感来自 TensorFlow 的静态 / 懒惰评估（static / lazy evaluation）。

它通过构建图，并仅在必要时运行访问所有相关信息，来确定模型真正需要多少资源。

而只需计算临时变量的 shape 就能计算各变量的内存使用情况；而知道了在前向传递中使用了多少内存，koila 也就能自动选择最佳 batch size 了。

又是算 shape 又是算内存的，koila 听起来就很慢？

NO。

即使是像 GPT-3 这种具有 96 层的巨大模型，其计算图中也只有几百个节点。

而 Koila 的算法是在线性时间内运行，任何现代计算机都能够立即处理这样的图计算；再加上大部分计算都是单个张量，所以，koila 运行起来一点也不慢。

你又会问了，PyTorch Lightning 的 batch size 搜索功能不是也可以解决这个问题吗？

是的，它也可以。

但作者表示，该功能已深度集成在自己那一套生态系统中，你必须得用它的 DataLoader，从他们的模型中继承子类，才能训练自己的模型，太麻烦了。

而 koila 灵活又轻量，只需一行代码就能解决问题，非常“大快人心”有没有。

不过目前，koila 还不适用于分布式数据的并行训练方法（DDP），未来才会支持多 GPU。

以及现在只适用于常见的 nn.Module 类。

ps：koila 作者是一位叫做 RenChu Wang 的小哥。

一行代码消除 PyTorch 的 CUDA 内存溢出报错，这个 GitHub 项目刚发布就揽星 600+

多少人用 PyTorch“炼丹”时都会被这个 bug 困扰。

一行代码解决内存溢出错误

灵感来自 TensorFlow 的静态 / 懒惰评估

热门文章

为你推荐

苹果 2025 年款智能手表前瞻：Apple Watch Ultra 3 升级 S11 芯片、支持 5G

谷歌CEO：Android可能无法保持免费因为欧盟的处罚

索尼摄影旗舰微单手机 Xperia PRO-I 今日开启预售：预装 Flyme 应用商店，10999 元

拼多多回应被约谈：严肃配合调查努力打假

7nm光刻机首发：俄罗斯科技界瞩目

中国移动：已拦截***扰电话超120亿次挽回损失超5亿

封测巨头日月光出售四座内地工厂：总计 14.6 亿美元，预计影响不大

微软正式上线最强生成式 AI 虚拟机、扩展 Azure OpenAI 服务

爱奇艺人文美食纪录片《灿烂的季节》上线

网上怎么买北单

美国最高法院：继续维持互联网平台对用户言论的免责条款

腾讯手机管家发布《Android 应用网络欺诈安全报告》，刷单兼职及招聘诈骗最多

互联网之父“炮轰“加密货币：像赌博一样危险

Adobe 以 200 亿美元收购 Figma，欧盟委员会正评估本次收购案

互联网之父警告 ChatGPT 投资热：不要急于从中赚钱，它没那么好

分析马斯克恢复的 10 个被禁 Twitter 账号数据，每年可创造 1900 万美元广告收入

互联网券商 Robinhood 第四季度营收 3.8 亿美元，净亏损同比收窄 61%

工信部：春节假期移动数据流量保持增长，5G 流量占比已超四成

抖音网页版上线“放映厅”功能，无需会员免费看电影电视剧

爱奇艺会员再涨价，黄金 VIP 连续包月涨至 25 元