| 模型 |
参数 |
精度 |
加速方式 |
显存 |
速度(每秒生成汉字数) |
效果 |
| [Qwen-7B-Chat][Qwen-7B-Chat] |
7B |
float16 |
|
20G |
7 |
|
| [Qwen-7B-Chat][Qwen-7B-Chat] |
7B |
float16 |
flash-attention |
20G |
9 |
|
| [ChatGLM2-6B][ChatGLM2-6B] |
6B |
float16 |
|
13G |
26 |
|
| [ChatGLM2-6B][ChatGLM2-6B] |
6B |
float16 |
fastllm |
13G |
26 |
|
| [ChatGLM2-6B][ChatGLM2-6B] |
6B |
float16 |
chatglm.cpp |
15G |
22 |
|
| [ChatGLM2-6B][ChatGLM2-6B] 🚀 |
6B |
int4 |
chatglm.cpp |
6G |
90 |
❌ |
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] |
7B |
float16 |
|
14G |
2 |
|
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] |
7B |
int8 |
|
11G |
16 |
|
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] |
7B |
int4 |
|
8G |
30 |
|
| [Baichuan2-13B-Chat-4bits][Baichuan2-13B-Chat-4bits] |
13B |
int4 |
|
13G |
20 |
|
·
3 分钟 ·
654 字