T4 - 标签 - 军舰的日志

2025年8月26日星期二

vLLM 推理性能优化实验与分析

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。

2025年8月26日 11 分钟 3,102 字

2025年3月3日星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

CPU: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz（64核）
GPU: NVIDIA T4（16GB）X 4
内存: 256GB

conda create -n eval-llm python==3.12 -y
conda activate eval-llm

cd /data/wjj
mkdir eval-llm
cd eval-llm

pip install vllm==0.7.3 pandas

git clone https://github.com/vllm-project/vllm

docker pull lmsysorg/sglang:latest

pip install evalscope-perf==1.0.0

通过设置环境变量没有生效。

export OPENAI_API_KEY=sk-1234

这里进行了硬编码，编辑文件：/data/miniconda3/envs/eval-llm/lib/python3.12/site-packages/evalscope_perf/main.py

2025年3月3日 1 分钟 302 字

Benchmark LLM vLLM SGLang LiteLLM Higress T4 GPU

2 篇文章带有标签 “T4”

2025年8月26日 星期二

vLLM 推理性能优化实验与分析

2025年3月3日 星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

2025年8月26日星期二

2025年3月3日星期一