vLLM 部署 Qwen1.5 LLM
下载模型
git clone https://www.modelscope.cn/qwen/Qwen1.5-7B-Chat-GPTQ-Int4.git
启动服务
python -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 --port 9000 \
--model Qwen/Qwen1.5-7B-Chat-GPTQ-Int4 \
--quantization gptq \
--tensor-parallel-size 2 \
--dtype=half \
--gpu-memory-utilization 0.95
- 可以使用环境变量
CUDA_VISIBLE_DEVICES=2,3来指定使用的 GPU。 - --dtype=half T4 不支持 bfloat16,可以使用 float16。
- --gpu-memory-utilization 默认为 0.9,这里因为 Qwen 的上下文为 32k,0.9 还不能满足,也可以通过
max-model-len参数来调整上下文长度。
使用 curl 测试
- chat completions
curl http://localhost:9000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen1.5-7B-Chat-GPTQ-Int4",
"messages": [
{"role": "system", "content": "你是一个有用的助手。"},
{"role": "user", "content": "天空为什么是蓝色的?"}
]
}'
