[炼丹]炼丹爬坑&技巧
文章目录
关于GPU(显存占用率,GPU利用率)
观察GPU利用率,显存占用率 工具:gpustat
|
|
-
- 时间更宝贵,尽可能使模型变快(减少flop)
- 显存占用不是和batch size简单成正比,模型自身的参数及其延伸出来的数据也要占据显存
- batch size越大,速度未必越快。在你充分利用计算资源的时候,加大batch size在速度上的提升很有限
尤其是batch-size,假定GPU处理单元已经充分利用的情况下:
- 增大batch size能增大速度,但是很有限(主要是并行计算的优化)
- 增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。
- 增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。
文章作者 fzhiy
上次更新 2022-01-02