3 篇文章带有标签 “vllm-ascend”

2025年7月31日星期四

华为 Atlas 800I A2 大模型部署实战（九）：Docker Swarm 分布式部署

该文本详细介绍了在华为 Atlas 800I A2 推理服务器集群上使用 Docker Swarm 部署大型语言模型（LLM）的实践过程。指导用户初始化 Docker Swarm 管理器节点并添加工作节点，以构建一个分布式计算环境。随后，文档展示了如何创建一个 Docker Stack 配置文件来部署两个不同的 LLM 服务（Qwen3-30B 和 Coder-32B），并说明了如何将容器映射到昇腾 NPU 设备。最后，文本提供了部署、检查服务状态以及故障排除（如禁用 firewalld）的命令，并指出此次实验部署未能成功❌。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

初始化 Swarm 集群

初始化 manager 节点

选择一台服务器上初始化 Swarm (manager 节点):

我们选择 172.16.33.106 作为 manager 节点。

docker swarm init --advertise-addr 172.16.33.106

执行后，会输出一段 docker swarm join 命令，类似下面

2025-07-31 10:00

昇腾 atlas-800i-a2 npu docker-swarm vllm vllm-ascend qwen coder-32b distributed-deployment

2025年7月26日星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型，既提供了直接使用 Docker 命令的示例，也展示了通过 Docker Compose 进行多模型部署的方法。此外，文章还包含了模型部署后的测试方法。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

安装

Installation vllm-ascend

拉取 vLLM 镜像

docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

部署 LLM

Docker

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小（以MB为单位）的块。

2025-07-26 18:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend docker-compose qwen deepseek-v3 tensor-parallel

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

vLLM

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

运行性能测试

2025-07-24 10:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend benchmark 性能测试 deepseek qwen

3 篇文章带有标签 “vllm-ascend”

2025年7月31日 星期四

华为 Atlas 800I A2 大模型部署实战（九）：Docker Swarm 分布式部署

2025年7月26日 星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

2025年7月24日 星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

2025年7月31日星期四

2025年7月26日星期六

2025年7月24日星期四