pytorch ligntning是一个便利训练分布式模型的模块化库。只需要写好training_step就可以训练。然而,其经常使用shm,也就是shared memory存储多进程数据。当程序意外结束的时候,会占用/dev/shm空间。经过df -h后可以看到:
shm

如果这里Available的非常少,就意外退出的程序占用了,这个时候我们需要删除之前占用的。首先通过下面命令删除/dev/shm中属于我自己的文件。

find /dev/shm -user shizhen -exec rm -rf {} \;

然后同时还要kill掉 deleted的进程,否则无法释放:

lsof | grep deleted | awk '{print $2}' | xargs kill -9

然后就能看到内存占用在一点一点地降低。

最后修改:2025 年 03 月 06 日
如果觉得我的文章对你有用,请随意赞赏