2 篇文章带有标签 “SGLang”

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

2025年11月1日 2 分钟 467 字

LLM 推理 CUDA vLLM SGLang llama.cpp whisper.cpp curl

2025年3月3日星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

CPU: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz（64核）
GPU: NVIDIA T4（16GB）X 4
内存: 256GB

conda create -n eval-llm python==3.12 -y
conda activate eval-llm

cd /data/wjj
mkdir eval-llm
cd eval-llm

pip install vllm==0.7.3 pandas

git clone https://github.com/vllm-project/vllm

docker pull lmsysorg/sglang:latest

pip install evalscope-perf==1.0.0

通过设置环境变量没有生效。

export OPENAI_API_KEY=sk-1234

这里进行了硬编码，编辑文件：/data/miniconda3/envs/eval-llm/lib/python3.12/site-packages/evalscope_perf/main.py

2025年3月3日 1 分钟 302 字

Benchmark LLM vLLM SGLang LiteLLM Higress T4 GPU

2 篇文章带有标签 “SGLang”

2025年11月1日 星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

2025年3月3日 星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

2025年11月1日星期六

2025年3月3日星期一