华为 Atlas 800I A2 大模型部署实战(六):vLLM 部署 LLM
本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型,既提供了直接使用 Docker 命令的示例,也展示了通过 Docker Compose 进行多模型部署的方法。此外,文章还包含了模型部署后的测试方法。
服务器配置
AI 服务器:华为 Atlas 800I A2 推理服务器
| 组件 | 规格 |
|---|---|
| CPU | 鲲鹏 920(5250) |
| NPU | 昇腾 910B4(8X32G) |
| 内存 | 1024GB |
| 硬盘 | 系统盘:450GB SSDX2 RAID1 数据盘:3.5TB NVME SSDX4 |
| 操作系统 | openEuler 22.03 LTS |
安装
拉取 vLLM 镜像
docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1
部署 LLM
Docker
设置环境变量
# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True
# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
max_split_size_mb 可防止原生分配器分割大于此大小(以MB为单位)的块。