部署 LLM
| 模型 | 参数 | 精度 | 加速方式 | 显存 | 速度(每秒生成汉字数) | 效果 |
|---|---|---|---|---|---|---|
| [Qwen-7B-Chat][Qwen-7B-Chat] | 7B | float16 | 20G | 7 | ||
| [Qwen-7B-Chat][Qwen-7B-Chat] | 7B | float16 | flash-attention | 20G | 9 | |
| [ChatGLM2-6B][ChatGLM2-6B] | 6B | float16 | 13G | 26 | ||
| [ChatGLM2-6B][ChatGLM2-6B] | 6B | float16 | fastllm | 13G | 26 | |
| [ChatGLM2-6B][ChatGLM2-6B] | 6B | float16 | chatglm.cpp | 15G | 22 | |
| [ChatGLM2-6B][ChatGLM2-6B] 🚀 | 6B | int4 | chatglm.cpp | 6G | 90 | ❌ |
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] | 7B | float16 | 14G | 2 | ||
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] | 7B | int8 | 11G | 16 | ||
| [Baichuan2-7B-Chat][Baichuan2-7B-Chat] | 7B | int4 | 8G | 30 | ||
| [Baichuan2-13B-Chat-4bits][Baichuan2-13B-Chat-4bits] | 13B | int4 | 13G | 20 |













