目录
计算加载模型需要的显存
模型参数(B) |
参数使用的位数(bits) |
加载需要显存(G) |
0.5 |
16 |
1 |
1.5 |
16 |
3 |
7 |
16 |
14 |
9 |
16 |
18 |
22 |
16 |
44 |
72 |
16 |
144 |
计算支持不同长度的上下文需要的显存
模型参数(B) |
加载显存(G) |
上下文长度(Token) |
上下文需要显存(G) |
总计需要显存(G) |
1.5 |
3 |
4000 |
3.61 |
6.61 |
|
|
8000 |
7.21 |
10.21 |
|
|
16000 |
14.43 |
17.43 |
|
|
32000 |
28.86 |
31.86 |
|
|
64000 |
57.71 |
60.71 |
|
|
128000 |
115.42 |
118.42 |
7 |
14 |
4000 |
3.61 |
17.61 |
|
|
8000 |
7.21 |
21.21 |
|
|
16000 |
14.43 |
28.43 |
|
|
32000 |
28.86 |
42.86 |
|
|
64000 |
57.71 |
71.71 |
|
|
128000 |
115.42 |
129.42 |
9 |
18 |
4000 |
3.61 |
21.61 |
|
|
8000 |
7.21 |
25.21 |
|
|
16000 |
14.43 |
32.43 |
|
|
32000 |
28.86 |
46.86 |
|
|
64000 |
57.71 |
75.71 |
|
|
128000 |
115.42 |
133.42 |
22 |
44 |
4000 |
3.61 |
47.61 |
|
|
8000 |
7.21 |
51.21 |
|
|
16000 |
14.43 |
58.43 |
|
|
32000 |
28.86 |
72.86 |
|
|
64000 |
57.71 |
101.71 |
|
|
128000 |
115.42 |
159.42 |
72 |
134.74 |
4000 |
9.82 |
144.56 |
|
|
8000 |
19.64 |
154.38 |
|
|
16000 |
39.28 |
174.02 |
|
|
32000 |
78.55 |
213.29 |
|
|
64000 |
157.11 |
291.85 |
|
|
128000 |
314.22 |
448.96 |
Qwen2 效率评估数据
模型参数(B) |
卡数 |
上下文长度(Token) |
显存使用(G) |
上下文长度差值(Token) |
显存使用差值(G) |
每 Token 使用显存(M) |
0.5 |
1 |
1 |
1.17 |
|
|
|
|
1 |
6144 |
6.42 |
6143 |
5.25 |
0.88 |
|
1 |
14336 |
13.48 |
14335 |
12.31 |
0.88 |
|
1 |
30720 |
27.61 |
30719 |
26.44 |
0.88 |
1.5 |
1 |
1 |
3.44 |
|
|
|
|
1 |
6144 |
8.74 |
6143 |
5.3 |
0.88 |
|
1 |
14336 |
15.92 |
14335 |
12.48 |
0.89 |
|
1 |
30720 |
30.31 |
30719 |
26.87 |
0.90 |
7 |
1 |
1 |
14.92 |
|
|
|
|
1 |
6144 |
20.26 |
6143 |
5.34 |
0.89 |
|
1 |
14336 |
27.71 |
14335 |
12.79 |
0.91 |
|
1 |
30720 |
42.62 |
30719 |
27.7 |
0.92 |
72 |
2 |
1 |
134.74 |
|
|
|
|
2 |
6144 |
144.38 |
6143 |
9.64 |
1.61 |
|
3 |
14336 |
169.93 |
14335 |
35.19 |
2.51 |
|
3 |
30720 |
209.03 |
30719 |
74.29 |
2.48 |
参考资料