多少人用PyTorch炼丹时都会被这个bug困扰

作者：兰心雪栏目：要闻资讯来源：IT之家发布时间：2021-12-20 01:48 阅读量：11188

多少人用 PyTorch炼丹时都会被这个 bug 困扰。

CUDAerror:outofmemory.

一般情况下，你得找出当下占显存的没用的程序，然后 kill 掉如果不行，还需手动调整 batch size 到合适的大小，有点麻烦

现在，有人写了一个 PyTorch wrapper，用一行代码就能无痛消除这个 bug。

有多厉害。

相关项目在 GitHub 才发布没几天就收获了 600 + 星。

一行代码解决内存溢出错误

软件包名叫 koila，已经上传 PyPI，先安装一下:

pipinstallkoila

现在，假如你面对这样一个 PyTorch 项目:构建一个神经网络来对 FashionMNIST 数据集中的图像进行分类。

先定义 input，label 和 model:

#AbatchofMNISTimageinput=torch.randn#Abatchoflabelslabel=torch.randn)classNeuralNetwork(Module):def__init__(self):super(NeuralNetwork，self).__init__()self.flatten=Flatten()self.linear_relu_stack=Sequential(Linear(28*28，512)，ReLU()，Linear(512，512)，ReLU()，Linear(512，10)，)defforward(self，x):x=self.flatten(x)logits=self.linear_relu_stack(x)returnlogits

然后定义 loss 函数，计算输出和 losses。

loss_fn=CrossEntropyLoss#Calculatelossesout=nn(t)loss=loss_fn(out，label)#Backwardpassnn.zero_gradloss.backward

好了，如何使用 koila 来防止内存溢出。

超级简单！

只需在第一行代码，也就是把输入用 lazy 张量 wrap 起来，并指定 bacth 维度，koila 就能自动帮你计算剩余的 GPU 内存并使用正确的 batch size 了。

在本例中，batch=0，则修改如下:

input=lazy，batch=0)

完事儿！就这样和 PyTorch炼丹时的 OOM 报错说拜拜。

灵感来自 TensorFlow 的静态 / 懒惰评估

下面就来说说 koila 背后的工作原理。

CUDA error: out of memory这个报错通常发生在前向传递中，因为这时需要保存很多临时变量。但是有了PyTorchLightning，在多个GPU上训练PyTorch模型是非常容易的，而且是几乎不需要修改代码的那种！。

koila 的灵感来自 TensorFlow 的静态 / 懒惰评估。