tensor-parallel - 标签 - 军舰的日志

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型，既提供了直接使用 Docker 命令的示例，也展示了通过 Docker Compose 进行多模型部署的方法。此外，文章还包含了模型部署后的测试方法。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

安装

Installation vllm-ascend

拉取 vLLM 镜像

docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

部署 LLM

Docker

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小（以MB为单位）的块。

2025-07-26 18:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend docker-compose qwen deepseek-v3 tensor-parallel

1 篇文章带有标签 “tensor-parallel”

2025年7月26日星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

1 篇文章带有标签 “tensor-parallel”

2025年7月26日 星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

2025年7月26日星期六