23 篇文章带有标签 “vLLM”

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

2025年11月1日 2 分钟 467 字

LLM 推理 CUDA vLLM SGLang llama.cpp whisper.cpp curl

2025年10月11日星期六

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025年10月11日 1 分钟 218 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年10月3日星期五

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025年10月3日 26 分钟 6,971 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年8月31日星期日

vLLM 推理引擎的核心优化技术及其工作流程

vLLM V1 引擎通过优化其核心引擎循环，将输入处理并行化，并引入了分段式 CUDA 图，从而实现了更灵活、动态的执行模型，显著降低了在线服务的延迟（TTFT 和 TPOT），同时保持了高吞吐量。其设计目标是确保 GPU 不闲置，通过 API 服务器和 EngineCore 之间的协作来高效调度和执行任务。为了进一步加速大型语言模型推理，vLLM V1 采用了多种优化技术：它通过分离式预填充和分块预填充来优化首个 token 的生成延迟，并结合连续批处理与分页注意力来提高 KV 缓存的内存效率和 GPU 利用率。此外，前缀缓存技术避免了重复计算相同提示的 KV 缓存，而级联推理则是一种内存带宽高效的共享前缀批处理解码技术，通过结合多查询注意力处理共享 KV 和单查询批处理解码处理独特 KV，特别适用于多用户共享长提示的场景，能显著提升性能。其他高级解码方法如推测性解码利用草稿模型加速生成，跳跃解码则适用于结构化输出场景。最后，量化技术是提升性能的关键手段，通过对权重、激活值和 KV 缓存使用低位精度（如 FP8、INT8），它能减少存储和内存占用，加速计算密集型和内存带宽密集型任务，并允许在固定硬件下处理更多 token，从而大幅提升吞吐量，同时保持模型准确性。

典型 LLM 推理优化

Flash Attention 的核心思想是将多个操作融合为一个 GPU 内核（kernel），并

2025年8月31日 13 分钟 3,739 字

vLLM LLM 推理

2025年8月26日星期二

vLLM 推理性能优化实验与分析

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。

2025年8月26日 11 分钟 3,102 字

vLLM Qwen3 缓存 Benchmark T4 LLM

2025年7月31日星期四

华为 Atlas 800I A2 大模型部署实战（九）：Docker Swarm 分布式部署

该文本详细介绍了在华为 Atlas 800I A2 推理服务器集群上使用 Docker Swarm 部署大型语言模型（LLM）的实践过程。指导用户初始化 Docker Swarm 管理器节点并添加工作节点，以构建一个分布式计算环境。随后，文档展示了如何创建一个 Docker Stack 配置文件来部署两个不同的 LLM 服务（Qwen3-30B 和 Coder-32B），并说明了如何将容器映射到昇腾 NPU 设备。最后，文本提供了部署、检查服务状态以及故障排除（如禁用 firewalld）的命令，并指出此次实验部署未能成功❌。

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

我们选择 172.16.33.106 作为 manager 节点。

docker swarm init --advertise-addr 172.16.33.106

执行后，会输出一段 docker swarm join 命令，类似下面这样：

2025年7月31日 2 分钟 475 字

昇腾 NPU 910B4 Atlas800IA2 vllm-ascend vLLM LLM Docker

2025年7月30日星期三

华为 Atlas 800I A2 大模型部署实战（八）：GPUStack 实现 GPU 集群化管理

本文章详细介绍了华为 Atlas 800I A2 推理服务器上部署大型AI模型的实践过程，重点围绕GPUStack这一开源GPU集群管理工具。文章首先阐述了GPUStack的核心特性，包括其广泛的兼容性、对多种模型和推理框架的支持、灵活的部署能力以及智能管理功能。随后，文档提供了在主服务器和从服务器上安装、配置和使用GPUStack的详尽步骤，并展示了如何通过NFS实现模型文件的统一存储，以优化多服务器集群中的模型调度效率。文中还包含了GPUStack用户界面的截图，帮助读者直观理解其各项功能。

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

GPUStack 是一款开源的 GPU 集群管理器，专为运行 AI 模型设计，其核心特点如下：

广泛的兼容性：支持多厂商 GPU，覆盖苹果 Mac、Windows 电脑及 Linux 服务器，还能适配多种推理后端（如 vLLM、Ascend MindIE 等），并可同时运行多个版本的推理后端，满足不同模型的运行需求。

2025年7月30日 5 分钟 1,350 字

昇腾 NPU 910B4 Atlas800IA2 vllm-ascend vLLM LLM Docker

2025年7月29日星期二

华为 Atlas 800I A2 大模型部署实战（七）：完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程，旨在提供一个全面的安装与配置实践，用于扩展部署到其它服务器。随后，文章通过流程图和具体命令脚本，逐步指导用户如何创建和挂载逻辑卷、同步并安装驱动固件、部署Docker环境以及导入所需的MindIE和vLLM镜像。最后，指南还涵盖了同步大型模型权重文件的关键步骤，并指示用户通过Docker Compose启动模型服务，确保MindIE和vLLM能够顺利运行，以实现AI推理功能。

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

2025年7月29日 1 分钟 304 字

昇腾 NPU 910B4 Atlas800IA2 Install vLLM LLM openEuler

2025年7月26日星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型，既提供了直接使用 Docker 命令的示例，也展示了通过 Docker Compose 进行多模型部署的方法。此外，文章还包含了模型部署后的测试方法。

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小（以MB为单位）的块。这可以减少内存碎片化，并可能使一些临界工作负载在不耗尽内存的情况下完成。

运行容器

2025年7月26日 2 分钟 445 字

昇腾 NPU 910B4 Atlas800IA2 vllm-ascend vLLM LLM openEuler

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

2025年7月24日 1 分钟 378 字

昇腾 NPU 910B4 Atlas800IA2 Benchmark vLLM openEuler

2025年7月3日星期四

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于，当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低，无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键，但这将强制要求 将 Ubuntu 升级到 22.04，从而导致 需要重装系统 和 可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外，文档还探讨了 替代推理引擎和云端推理 等备选方案，但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

硬件环境：ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。

硬件环境： ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。当前系统配置： JetPack版本：5.1.4 Ubuntu版本：20.04 CUDA版本：11.4 核心问题： vLLM和Ollama这两个主流的多模态大模型推理框架对CUDA和驱动版本有更高要求，而现有系统配置无法满足。具体软件版本要求： vLLM：至少需要CUDA 11.8。 Ollama：需要Nvidia GPU计算能力5.

2025年7月3日 11 分钟 2,881 字

Jetson AGXOrin arm64 CUDA vLLM 多模态人形机器人泰安

2025年6月19日星期四

vLLM：快速易用的 LLM 推理和服务库

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub（Linux/macOS）或 C:\Users<用户名>.cache\modelscope\hub（Windows）。--local_dir 参数可以指定下载目录。

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

Whisper large-v3-turbo

modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

2025年6月19日 1 分钟 83 字

vLLM LLM Qwen Whisper

2025年6月17日星期二

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南，涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本（如 3B 和 7B Instruct）的模型，还提供了安装和启动模型的命令行指令。此外，文档还展示了如何通过 cURL 命令测试模型，并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码，该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测，支持本地和网络图片。

Qwen2.5 VL

Qwen2.5 VL Paper

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.cache/modelscope/hub（Linux/macOS）或 C:\Users<用户名>.cache\modelscope\hub（Windows）。--local_dir 参数可以指定下载目录。

2025年6月17日 3 分钟 757 字

Qwen2.5-VL 多模态 Qwen LLM ModelScope vLLM 火灾烟雾

2025年3月3日星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

CPU: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz（64核）
GPU: NVIDIA T4（16GB）X 4
内存: 256GB

conda create -n eval-llm python==3.12 -y
conda activate eval-llm

cd /data/wjj
mkdir eval-llm
cd eval-llm

pip install vllm==0.7.3 pandas

git clone https://github.com/vllm-project/vllm

docker pull lmsysorg/sglang:latest

pip install evalscope-perf==1.0.0

通过设置环境变量没有生效。

export OPENAI_API_KEY=sk-1234

这里进行了硬编码，编辑文件：/data/miniconda3/envs/eval-llm/lib/python3.12/site-packages/evalscope_perf/main.py

2025年3月3日 1 分钟 302 字

Benchmark LLM vLLM SGLang LiteLLM Higress T4 GPU

2025年2月25日星期二

海光 DCU 的大模型推理性能压测

lscpu

架构：                              x86_64
CPU 运行模式：                      32-bit, 64-bit
字节序：                            Little Endian
Address sizes:                      48 bits physical, 48 bits virtual
CPU:                                256
在线 CPU 列表：                     0-254
离线 CPU 列表：                     255
每个核的线程数：                    1
每个座的核数：                      64
座：                                2
NUMA 节点：                         8
厂商 ID：                           HygonGenuine
BIOS Vendor ID:                     Chengdu Hygon
CPU 系列：                          24
型号：                              4
// ...

DCU：Hygon K100_AI 64G X 8

lspci -v | grep -A22 'Co-processor'

2025年2月25日 2 分钟 492 字

海光 HYGON DCU vLLM evalscope-perf EvalScope Benchmark LLM

2025年2月14日星期五

部署 DeepSeek-R1 蒸馏模型

T4 GPU 服务器，4卡16G。

conda create -n deepseek-r1 python=3.12 -y
conda activate deepseek-r1

pip install vllm

Installation GPU

2025年2月14日 1 分钟 225 字

DeepSeek-R1 vLLM Qwen Jan LLM

2025年2月13日星期四

沐曦 MXC500 训练 GPU 的大模型推理性能压测

曦云®C500是沐曦面向通用计算的旗舰产品，提供强大高精度及多精度混合算力，配备大规格高带宽显存，片间互联MetaXLink无缝链接多GPU系统，自主研发的MXMACA®软件栈可兼容主流GPU生态，能够全面满足数字经济建设和产业数字化的算力需求。

2023 年 6 月 14 日，沐曦官宣 AI 训练 GPU MXC500 完成芯片功能测试，MXMACA 2.0 计算平台基础测试完成，意味着公司首款 AI 训练芯片 MXC500成功点亮，该芯片采用 7nm 制程，GPGPU 架构，能够兼容 CUDA，目标对标英伟达 A100/A800 芯片。

沐曦主要有三大产品线：

用于 AI 推理的 MXN 系列；
用于 AI 训练及通用计算的 MXC 系列；
用于图形渲染的 MXG 系列。

研发实力强大，软件生态布局完善。沐曦的研发团队阵容豪华，三位创始人均在 AMD 拥有 20 年左右的 GPU 研发经验，其中两位为 AMD 科学家（Fellow）。沐曦采用了完全自主研发的 GPU IP，有效提高了产品的开发效率，同时拥有完全自主知识产权的指令集和架构，可以对每个独立的计算实例进行灵活配置，从而优化数据中心计算资源的效率。

2025年2月13日 5 分钟 1,257 字

沐曦 MXC500 GPU vLLM evalscope-perf EvalScope Benchmark LLM

2024年10月10日星期四

华为 Atlas 800I A2 服务器的大模型推理性能压测

❌ --stream 不要加，经常出问题。

--read-timeout: 网络读取超时
--parallel: 并发数
-n: 请求数

压测命令

evalscope perf \
    --api openai \
    --url 'http://127.0.0.1:1025/v1/chat/completions' \
    --model 'qwen' \
    --dataset openqa \
    --dataset-path './datasets/open_qa.jsonl' \
    --max-prompt-length 8000 \
    --stop '<|im_end|>' \
    --read-timeout=120 \
    --parallel 1 \
    -n 1

压测命令 evalscope perf \ --api openai \ --url 'http://127.0.0.1:1025/v1/chat/completions' \ --model 'qwen' \ --dataset openqa \ --dataset-path './datasets/Codefuse-Evol-Instruct-Clean-data.

2024年10月10日 10 分钟 2,109 字

EvalScope Atlas800 NPU MindIE vLLM Benchmark LLM

2024年10月3日星期四

部署 LLM 多 LoRA 适配器的推理服务

conda create -n text-generation-inference python=3.9
conda activate text-generation-inference

git clone https://github.com/huggingface/text-generation-inference.git && cd text-generation-inference
BUILD_EXTENSIONS=True make install

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm

cd ~/HuggingFace/mistralai/Mistral-7B-v0.1
git clone https://huggingface.co/predibase/magicoder adapters/magicoder

vllm - Using LoRA adapters mistralai/Mistral-7B-v0.

2024年10月3日 1 分钟 20 字

TGI vLLM LoRA HuggingFace LLM

2024年9月6日星期五

SGLang 大模型服务框架

SGLang 是用于大型语言模型和视觉语言模型的快速服务框架。通过协同设计后端运行时和前端语言，使您与模型的交互更快速、更可控。

The core features include:

核心功能包括： Fast Backend Runtime: Efficient serving with RadixAttention for prefix caching, jump-forward constrained decoding, continuous batching, token attention (paged attention), tensor parallelism, FlashInfer kernels, and quantization (AWQ/FP8/GPTQ/Marlin). 快速后端运行时：通过 RadixAttention 实现高效的服务，支持前缀缓存（prefix caching）、受限跳转前缀解码（jump-forward constrained decoding）、连续批处理（continuous batching）、令牌注意力(分页注意力)（token attention (paged attention)）、张量并行（tensor parallelism）、FlashInfer 内核和量化（AWQ/FP8/GPTQ/Marlin）。

2024年9月6日 3 分钟 621 字

SGlang vLLM FlashInfer CUDA SGlang LLM

23 篇文章带有标签 “vLLM”

2025年11月1日 星期六

2025年10月11日 星期六

2025年10月3日 星期五

2025年8月31日 星期日

2025年8月26日 星期二

2025年7月31日 星期四

2025年7月30日 星期三

2025年7月29日 星期二

2025年7月26日 星期六

2025年7月24日 星期四

2025年7月3日 星期四

2025年6月19日 星期四

2025年6月17日 星期二

2025年3月3日 星期一

2025年2月25日 星期二

2025年2月14日 星期五

2025年2月13日 星期四

2024年10月10日 星期四

2024年10月3日 星期四

2024年9月6日 星期五

2025年11月1日星期六

2025年10月11日星期六

2025年10月3日星期五

2025年8月31日星期日

2025年8月26日星期二

2025年7月31日星期四

2025年7月30日星期三

2025年7月29日星期二

2025年7月26日星期六

2025年7月24日星期四

2025年7月3日星期四

2025年6月19日星期四

2025年6月17日星期二

2025年3月3日星期一

2025年2月25日星期二

2025年2月14日星期五

2025年2月13日星期四

2024年10月10日星期四

2024年10月3日星期四

2024年9月6日星期五