vLLM 部署 Qwen1.5 LLM
下载模型
git clone https://www.modelscope.cn/qwen/Qwen1.5-7B-Chat-GPTQ-Int4.git
启动服务
python -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 --port 9000 \
--model Qwen/Qwen1.5-7B-Chat-GPTQ-Int4 \
--quantization gptq \
--tensor-parallel-size 2 \
--dtype=half \
--gpu-memory-utilization 0.95
- 可以使用环境变量
CUDA_VISIBLE_DEVICES=2,3来指定使用的 GPU。 - --dtype=half T4 不支持 bfloat16,可以使用 float16。
- --gpu-memory-utilization 默认为 0.9,这里因为 Qwen 的上下文为 32k,0.9 还不能满足,也可以通过
max-model-len参数来调整上下文长度。
使用 curl 测试
chat completions curl http://localhost:9000/v1/chat/completions \ -H "Content-Type: application/json" \ -d &
