大模型推理需要多少显存?

- 基于 Qwen2 效率评估计算大模型推理需要的显存.xlsx
- 这里计算的显存都是指使用
transformers库进行推理,对于 vLLM,由于 GPU 显存预分配,实际显存使用难以评估。
| 模型参数(B) | 参数使用的位数(bits) | 加载需要显存(G) |
|---|---|---|
| 0.5 | 16 | 1 |
| 1.5 | 16 | 3 |
| 7 | 16 | 14 |
| 9 | 16 | 18 |
| 22 | 16 | 44 |
| 72 | 16 | 144 |

transformers 库进行推理,对于 vLLM,由于 GPU 显存预分配,实际显存使用难以评估。| 模型参数(B) | 参数使用的位数(bits) | 加载需要显存(G) |
|---|---|---|
| 0.5 | 16 | 1 |
| 1.5 | 16 | 3 |
| 7 | 16 | 14 |
| 9 | 16 | 18 |
| 22 | 16 | 44 |
| 72 | 16 | 144 |