目录

计算加载模型需要的显存

模型参数(B) 参数使用的位数(bits) 加载需要显存(G)
0.5 16 1
1.5 16 3
7 16 14
9 16 18
22 16 44
72 16 144

计算支持不同长度的上下文需要的显存

模型参数(B) 加载显存(G) 上下文长度(Token) 上下文需要显存(G) 总计需要显存(G)
1.5 3 4000 3.61 6.61
    8000 7.21 10.21
    16000 14.43 17.43
    32000 28.86 31.86
    64000 57.71 60.71
    128000 115.42 118.42
7 14 4000 3.61 17.61
    8000 7.21 21.21
    16000 14.43 28.43
    32000 28.86 42.86
    64000 57.71 71.71
    128000 115.42 129.42
9 18 4000 3.61 21.61
    8000 7.21 25.21
    16000 14.43 32.43
    32000 28.86 46.86
    64000 57.71 75.71
    128000 115.42 133.42
22 44 4000 3.61 47.61
    8000 7.21 51.21
    16000 14.43 58.43
    32000 28.86 72.86
    64000 57.71 101.71
    128000 115.42 159.42
72 134.74 4000 9.82 144.56
    8000 19.64 154.38
    16000 39.28 174.02
    32000 78.55 213.29
    64000 157.11 291.85
    128000 314.22 448.96

Qwen2 效率评估数据

模型参数(B) 卡数 上下文长度(Token) 显存使用(G) 上下文长度差值(Token) 显存使用差值(G) 每 Token 使用显存(M)
0.5 1 1 1.17      
  1 6144 6.42 6143 5.25 0.88
  1 14336 13.48 14335 12.31 0.88
  1 30720 27.61 30719 26.44 0.88
1.5 1 1 3.44      
  1 6144 8.74 6143 5.3 0.88
  1 14336 15.92 14335 12.48 0.89
  1 30720 30.31 30719 26.87 0.90
7 1 1 14.92      
  1 6144 20.26 6143 5.34 0.89
  1 14336 27.71 14335 12.79 0.91
  1 30720 42.62 30719 27.7 0.92
72 2 1 134.74      
  2 6144 144.38 6143 9.64 1.61
  3 14336 169.93 14335 35.19 2.51
  3 30720 209.03 30719 74.29 2.48

参考资料