28 篇文章带有标签 “vllm”

2026年1月21日星期三

Dify 定制您的政策解读智能体

📌 DSL

Dify

克隆代码仓库

git clone https://github.com/langgenius/dify

Docker 部署

Dify 提供了 Docker 部署方式，您可以通过以下步骤快速部署：

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后，可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

vLLM

vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
    --served-model-name gpt-4o-mini \
    --tensor-parallel-size 4 \
    --max-model-len 102400 \
    --dtype half \
    --port 8111

Ollama

安装 Ollama 服务。

curl -fsSL https://ollama.com/install.sh | sh

编辑 systemd 服务，调用 systemctl edit ollama.service。这将打开一个编辑器。

sudo systemctl edit ollama.service

对于每个环境变量，在 [Service] 部分下添加一行

2026-01-21 10:00

2025年11月24日星期一

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP：27.41.19.62

服务	说明	端口	模型	备注
whisperlivekit	实时语音识别服务	8000	Whisper `small` (默认) `large-v3-turbo`	带说话人分离
FunASR	实时语音识别服务	8000	语音识别：`paraformer-zh` 实时语音识别：`paraformer-zh-streaming` 实时语音端点检测：`fsmn-vad` 标点恢复：`ct-punc` 文本逆规范化：`fst_itn_zh`	实时与非实时一体化协同（`2pass`）服务模式
llama-server	GGUF 模型推理服务	8080	Qwen3 `Qwen3-8B-Q5_K_M.gguf`	模型名：qwen3 上下文长度：32K 不思考

系统设置

系统优化

最大功率模式（一次性设置）

sudo nvpmodel -m 0

启动最高频率（每次重启后设置）

sudo jetson_clocks

清理内存

sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

WhisperLiveKit

WhisperLiveKit - 实时语音识别

部署服务

tmux new -s wlk

默认容器内应用（标点识别有时会失灵 ⚠️）

2025-11-24 08:00

智能会议系统 jetson-thor whisperlivekit funasr llama-server qwen3 asr llm docker vllm

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

推理服务

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

vLLM

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

SGLang

2025-11-01 08:00

llm vllm sglang llama.cpp whisper.cpp cuda jetson-thor qwen3 推理模型量化

2025年10月12日星期日

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

性能基准测试分析

部署模型

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

运行性能基准测试

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025-10-12 06:00

jetson-thor jetson qwen3 vllm benchmarking llm-benchmark fp8 fp4 quantization gguf

2025年10月4日星期六

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025-10-04 06:00

jetson-thor jetson nvidia vllm qwen3 model-deployment benchmarking fp8 fp4 quantization docker

2025年9月1日星期一

vLLM 推理引擎的核心优化技术及其工作流程

vLLM V1 引擎通过优化其核心引擎循环，将输入处理并行化，并引入了分段式 CUDA 图，从而实现了更灵活、动态的执行模型，显著降低了在线服务的延迟（TTFT 和 TPOT），同时保持了高吞吐量。其设计目标是确保 GPU 不闲置，通过 API 服务器和 EngineCore 之间的协作来高效调度和执行任务。为了进一步加速大型语言模型推理，vLLM V1 采用了多种优化技术：它通过分离式预填充和分块预填充来优化首个 token 的生成延迟，并结合连续批处理与分页注意力来提高 KV 缓存的内存效率和 GPU 利用率。此外，前缀缓存技术避免了重复计算相同提示的 KV 缓存，而级联推理则是一种内存带宽高效的共享前缀批处理解码技术，通过结合多查询注意力处理共享 KV 和单查询批处理解码处理独特 KV，特别适用于多用户共享长提示的场景，能显著提升性能。其他高级解码方法如推测性解码利用草稿模型加速生成，跳跃解码则适用于结构化输出场景。最后，量化技术是提升性能的关键手段，通过对权重、激活值和 KV 缓存使用低位精度（如 FP8、INT8），它能减少存储和内存占用，加速计算密集型和内存带宽密集型任务，并允许在固定硬件下处理更多 token，从而大幅提升吞吐量，同时保持模型准确性。

V1 Engine 工作流程

推理优化

典型 LLM 推理优化

Flash Attention 的核心思想是将多个操作融合为一个 GPU 内核（kernel），并充分利用速度极快的片上 SRAM（静态随机存取存储器）。

2025-09-01 00:00

vllm llm 推理 inference-optimization kv-cache prefix-caching chunked-prefill cascade-inference quantization distributed-inference

2025年8月26日星期二

vLLM 推理性能优化实验与分析

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

vLLM 工作流程

1. Prefill

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。
在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。
示例代码见：examples/offline_inference/disaggregated_prefill.py
在 chunked prefill 场景下，长文本的 prefill 会被分块（chunk）处理，并与 decode 请求混合批处理，以充分利用算力。

2025-08-26 08:00

vllm qwen3 benchmark t4 llm prefix-caching chunked-prefill kv-cache inference-optimization agent

2025年7月31日星期四

华为 Atlas 800I A2 大模型部署实战（九）：Docker Swarm 分布式部署

该文本详细介绍了在华为 Atlas 800I A2 推理服务器集群上使用 Docker Swarm 部署大型语言模型（LLM）的实践过程。指导用户初始化 Docker Swarm 管理器节点并添加工作节点，以构建一个分布式计算环境。随后，文档展示了如何创建一个 Docker Stack 配置文件来部署两个不同的 LLM 服务（Qwen3-30B 和 Coder-32B），并说明了如何将容器映射到昇腾 NPU 设备。最后，文本提供了部署、检查服务状态以及故障排除（如禁用 firewalld）的命令，并指出此次实验部署未能成功❌。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

初始化 Swarm 集群

初始化 manager 节点

选择一台服务器上初始化 Swarm (manager 节点):

我们选择 172.16.33.106 作为 manager 节点。

docker swarm init --advertise-addr 172.16.33.106

执行后，会输出一段 docker swarm join 命令，类似下面

2025-07-31 10:00

昇腾 atlas-800i-a2 npu docker-swarm vllm vllm-ascend qwen coder-32b distributed-deployment

2025年7月30日星期三

华为 Atlas 800I A2 大模型部署实战（八）：GPUStack 实现 GPU 集群化管理

本文章详细介绍了华为 Atlas 800I A2 推理服务器上部署大型AI模型的实践过程，重点围绕GPUStack这一开源GPU集群管理工具。文章首先阐述了GPUStack的核心特性，包括其广泛的兼容性、对多种模型和推理框架的支持、灵活的部署能力以及智能管理功能。随后，文档提供了在主服务器和从服务器上安装、配置和使用GPUStack的详尽步骤，并展示了如何通过NFS实现模型文件的统一存储，以优化多服务器集群中的模型调度效率。文中还包含了GPUStack用户界面的截图，帮助读者直观理解其各项功能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

GPUStack 介绍

GPUStack 是一款开源的 GPU 集群管理器，专为运行 AI 模型设计，其核心特点如下：

广泛的兼容性：支持多厂商 GPU，覆盖苹果 Mac、Windows 电脑及 Linux 服务器，还能适配多种推理后端（如 vLLM、Ascend MindIE 等），并可同时运行多个版本的推理后端，满足不同模型的运行需求。
丰富的模型支持与灵活部署：支持 LLM、VLM、图像模型、音频模型等多种类型模型，可实现单节点和多节点多 GPU 推理，包括跨厂商和不同运行环境的异构 GPU，且能通过添加更多 GPU 或节点轻松扩展架构。
稳定与智能管理：具备自动故障恢复、多实例冗余和推理请求负载均衡功能，保障高可用性；能自动评估模型资源需求、兼容性等部署相关因素，还可基于可用资源动态分配模型。
实用的附加功能：采用轻量级 Python 包，依赖少、运维成本低；提供与 OpenAI 兼容的 API，便于无缝集成；支持用户及 API 密钥管理，可实时监控 GPU 性能、利用率以及令牌使用量和 API 请求速率。

2025-07-30 12:00

昇腾 atlas-800i-a2 npu gpustack gpu-cluster nfs vllm mindie docker

2025年7月29日星期二

华为 Atlas 800I A2 大模型部署实战（七）：完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程，旨在提供一个全面的安装与配置实践，用于扩展部署到其它服务器。随后，文章通过流程图和具体命令脚本，逐步指导用户如何创建和挂载逻辑卷、同步并安装驱动固件、部署Docker环境以及导入所需的MindIE和vLLM镜像。最后，指南还涵盖了同步大型模型权重文件的关键步骤，并指示用户通过Docker Compose启动模型服务，确保MindIE和vLLM能够顺利运行，以实现AI推理功能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

完整安装部署流程

2025-07-29 20:00

昇腾 atlas-800i-a2 npu 部署流程 docker mindie vllm llm rsync

2025年7月26日星期六

华为 Atlas 800I A2 大模型部署实战（六）：vLLM 部署 LLM

本文档重点介绍了如何使用 vLLM-ascend 容器镜像来部署各种 Qwen 和 DeepSeek-V3 模型，既提供了直接使用 Docker 命令的示例，也展示了通过 Docker Compose 进行多模型部署的方法。此外，文章还包含了模型部署后的测试方法。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

安装

Installation vllm-ascend

拉取 vLLM 镜像

docker pull quay.io/ascend/vllm-ascend:v0.9.2rc1

部署 LLM

Docker

设置环境变量

# 从 ModelScope 加载模型以加快下载速度
export VLLM_USE_MODELSCOPE=True

# 设置 max_split_size_mb 以减少内存碎片并避免内存不足
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

max_split_size_mb 可防止原生分配器分割大于此大小（以MB为单位）的块。

2025-07-26 18:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend docker-compose qwen deepseek-v3 tensor-parallel

2025年7月24日星期四

华为 Atlas 800I A2 大模型部署实战（五）：vLLM 性能测试

本文档解释了如何设置和运行vLLM基准测试，并定义了关键性能指标，如请求吞吐量、token吞吐量和延迟。最后，比较了不同大型语言模型（如DeepSeek和Qwen）在各种精度设置下的性能，以评估Atlas 800I A2在AI推理场景中的效率。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

性能测试

使用 vLLM 进行性能测试，性能指标包括成功请求数、压测总耗时、输入和生成的 token 数量、请求吞吐量（QPS）、token 吞吐量、首 token 延迟（TTFT）、每个输出 token 的生成时间（TPOT）以及相邻 token 之间的间隔（ITL）等。

vLLM

克隆 vLLM 仓库

git clone https://github.com/vllm-project/vllm.git

安装 vLLM

cd vllm
pip install -e .

运行性能测试

2025-07-24 10:00

昇腾 atlas-800i-a2 npu vllm vllm-ascend benchmark 性能测试 deepseek qwen

2025年7月3日星期四

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于，当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低，无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键，但这将强制要求 将 Ubuntu 升级到 22.04，从而导致 需要重装系统 和 可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外，文档还探讨了 替代推理引擎和云端推理 等备选方案，但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

系统信息

硬件环境：ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。

当前系统配置

软件环境：
- Ubuntu版本：20.04
- GPU驱动版本：515
- JetPack版本：5.1.4
- CUDA版本：11.4
- Python版本：3.8
- 机器人操作系统：ROS1（Robot Operating System 1）

系统升级需求

Ubuntu版本：22.04
GPU驱动版本：535
JetPack版本：>=6.0
CUDA版本：>=12.2
Python版本: 3.9 - 3.12

2025-07-03 16:00

jetson jetson-agx-orin edge-ai multimodal vllm ollama cuda jetpack arm64 人形机器人

2025年6月19日星期四

vLLM：快速易用的 LLM 推理和服务库

大模型

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub（Linux/macOS）或 C:\Users<用户名>.cache\modelscope\hub（Windows）。--local_dir 参数可以指定下载目录。

多模态（Multi-modal）

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

转录（Transcriptions）

Whisper large-v3

modelscope download --model openai-mirror/whisper-large-v3 --local_dir whisper-large-v3

Whisper large-v3-turbo

modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

2025-06-19 08:00

vllm llm inference modelscope qwen2.5-vl whisper docker docker-compose

2025年6月17日星期二

探索多模态大模型 Qwen2.5-VL

本文档提供了一篇关于Qwen2.5-VL 多模态大模型的详细指南，涵盖了从模型架构、性能到实际部署和使用的各个方面。它不仅介绍了如何下载不同版本（如 3B 和 7B Instruct）的模型，还提供了安装和启动模型的命令行指令。此外，文档还展示了如何通过 cURL 命令测试模型，并给出了一个使用 OpenAI API 与 Qwen2.5-VL 进行交互的 Python 示例代码，该代码专注于图像中的火灾、烟雾和安全帽佩戴情况检测，支持本地和网络图片。

Qwen2.5-VL

模型架构

Qwen2.5 VL

模型性能

Qwen2.5 VL Paper

魔搭下载

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

默认存储到 ~/.

2025-06-17 08:00

qwen2.5-vl qwen multimodal-llm vlm vllm modelscope openai-api vision-language-model 多模态安全检测

2025年3月18日星期二

RAGFlow

2025-03-18 10:00

ragflow rag agent knowledge-base chatbot search vllm llm

2025年3月3日星期一

大模型推理服务压测报告：vLLM、SGLang、LiteLLM 与 Higress 性能对比

服务器配置

CPU: Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz（64核）
GPU: NVIDIA T4（16GB）X 4
内存: 256GB

创建压测 LLM 环境

conda create -n eval-llm python==3.12 -y
conda activate eval-llm

创建工作目录

cd /data/wjj
mkdir eval-llm
cd eval-llm

安装 vllm

pip install vllm==0.7.3 pandas

git clone https://github.com/vllm-project/vllm

拉取 sglang 镜像

docker pull lmsysorg/sglang:latest

安装 evalscope-perf

pip install evalscope-perf==1.0.0

处理 API Key（访问的 API 需要认证）

通过设置环境变量没有生效。

export OPENAI_API_KEY=sk-1234

这里进行了硬编码，编辑文件：/data/miniconda3/envs/eval-llm/lib/python3.12/site-packages/evalscope_perf/main.py

2025-03-03 10:00

benchmark vllm sglang litellm higress qwen inference-server evalscope gpu llm

2025年2月25日星期二

海光 DCU 的大模型推理性能压测

服务器配置

CPU 信息

CPU: Hygon C86 7490 64-core Processor X 2

lscpu

架构：                              x86_64
CPU 运行模式：                      32-bit, 64-bit
字节序：                            Little Endian
Address sizes:                      48 bits physical, 48 bits virtual
CPU:                                256
在线 CPU 列表：                     0-254
离线 CPU 列表：                     255
每个核的线程数：                    1
每个座的核数：                      64
座：                                2
NUMA 节点：                         8
厂商 ID：                           HygonGenuine
BIOS Vendor ID:                     Chengdu Hygon
CPU 系列：                          24
型号：                              4
// ...

DCU 信息

DCU：Hygon K100_AI 64G X 8

lspci -v | grep -A22 'Co-processor'

2025-02-25 10:00

海光 hygon dcu vllm evalscope benchmark llm qwen litellm

2025年2月14日星期五

部署 DeepSeek-R1 蒸馏模型

GPU 服务器

T4 GPU 服务器，4卡16G。

安装 vLLM

conda create -n deepseek-r1 python=3.12 -y
conda activate deepseek-r1

pip install vllm

Installation GPU

错误处理

ImportError: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

2025-02-14 10:00

deepseek-r1 vllm qwen jan ollama model-deployment llm reasoning gpu

2025年2月13日星期四

沐曦 MXC500 训练 GPU 的大模型推理性能压测

沐曦训练芯片 MXC500 介绍

曦云®C500是沐曦面向通用计算的旗舰产品，提供强大高精度及多精度混合算力，配备大规格高带宽显存，片间互联MetaXLink无缝链接多GPU系统，自主研发的MXMACA®软件栈可兼容主流GPU生态，能够全面满足数字经济建设和产业数字化的算力需求。

2023 年 6 月 14 日，沐曦官宣 AI 训练 GPU MXC500 完成芯片功能测试，MXMACA 2.0 计算平台基础测试完成，意味着公司首款 AI 训练芯片 MXC500成功点亮，该芯片采用 7nm 制程，GPGPU 架构，能够兼容 CUDA，目标对标英伟达 A100/A800 芯片。

沐曦主要有三大产品线：

用于 AI 推理的 MXN 系列；
用于 AI 训练及通用计算的 MXC 系列；
用于图形渲染的 MXG 系列。

研发实力强大，软件生态布局完善。沐曦的研发团队阵容豪华，三位创始人均在 AMD 拥有 20 年左右的 GPU 研发经验，其中两位为 AMD 科学家（Fellow）。沐曦采用了完全自主研发的 GPU IP，有效提高了产品的开发效率，同时拥有完全自主知识产权的指令集和架构，可以对每个独立的计算实例进行灵活配置，从而优化数据中心计算资源的效率。

2025-02-13 10:00

沐曦 mxc500 gpu vllm evalscope benchmark llm qwen numa

28 篇文章带有标签 “vllm”

2026年1月21日 星期三

2025年11月24日 星期一

2025年11月1日 星期六

2025年10月12日 星期日

2025年10月4日 星期六

2025年9月1日 星期一

2025年8月26日 星期二

2025年7月31日 星期四

2025年7月30日 星期三

2025年7月29日 星期二

2025年7月26日 星期六

2025年7月24日 星期四

2025年7月3日 星期四

2025年6月19日 星期四

2025年6月17日 星期二

2025年3月18日 星期二

2025年3月3日 星期一

2025年2月25日 星期二

2025年2月14日 星期五

2025年2月13日 星期四

2026年1月21日星期三

2025年11月24日星期一

2025年11月1日星期六

2025年10月12日星期日

2025年10月4日星期六

2025年9月1日星期一

2025年8月26日星期二

2025年7月31日星期四

2025年7月30日星期三

2025年7月29日星期二

2025年7月26日星期六

2025年7月24日星期四

2025年7月3日星期四

2025年6月19日星期四

2025年6月17日星期二

2025年3月18日星期二

2025年3月3日星期一

2025年2月25日星期二

2025年2月14日星期五

2025年2月13日星期四