1 篇文章带有标签 “Qwen-7B”

部署 LLM

模型 参数 精度 加速方式 显存 速度(每秒生成汉字数) 效果
[Qwen-7B-Chat][Qwen-7B-Chat] 7B float16 20G 7
[Qwen-7B-Chat][Qwen-7B-Chat] 7B float16 flash-attention 20G 9
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 13G 26
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 fastllm 13G 26
[ChatGLM2-6B][ChatGLM2-6B] 6B float16 chatglm.cpp 15G 22
[ChatGLM2-6B][ChatGLM2-6B] 🚀 6B int4 chatglm.cpp 6G 90
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B float16 14G 2
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B int8 11G 16
[Baichuan2-7B-Chat][Baichuan2-7B-Chat] 7B int4 8G 30
[Baichuan2-13B-Chat-4bits][Baichuan2-13B-Chat-4bits] 13B int4 13G 20