9 篇文章带有标签 “Jetson”

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP27.41.19.62

服务 说明 端口 模型 备注
whisperlivekit 实时语音识别服务 8000 Whisper
small (默认)
large-v3-turbo
说话人分离
FunASR 实时语音识别服务 8000 语音识别paraformer-zh
实时语音识别paraformer-zh-streaming
实时语音端点检测fsmn-vad
标点恢复ct-punc
文本逆规范化fst_itn_zh
实时与非实时一体化协同(2pass)服务模式
llama-server GGUF 模型推理服务 8080 Qwen3
Qwen3-8B-Q5_K_M.gguf
模型名:qwen3
上下文长度:32K
不思考
sudo nvpmodel -m 0
sudo jetson_clocks
sync && echo 3 | sudo tee /proc/sys/vm/drop_caches
tmux new -s wlk
docker run -it \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  -e MODEL=small \
  -e PORT=8000 \
  -e LANG=zh \
  -e DIAR=true \
  wangjunjian/whisperlivekit

DeepSeek-OCR 研究与实测

  • 方法: 遵循 Vary,使用紧凑语言模型和下一词元预测(next token prediction)框架进行训练。
  • 数据: 使用所有 OCR 1.0OCR 2.0 数据,以及从 LAION 数据集中采样的 1 亿(100M)通用数据。
  • 训练细节: 训练 2 个 epoch,批次大小为 1280,使用 AdamW 优化器,配合余弦退火(cosine annealing)调度器,学习率为 5e-5。训练序列长度为 4096

时机: DeepEncoder 准备好后进行。 数据: 使用训练数据。 并行策略: 采用流水线并行(PP),模型被分为 4 部分: DeepEncoder (PP0, PP1): PP0: 包含 SAM 和压缩器(作为视觉词元分析器),参数冻结。 PP1: 包含 CLIP 部分(作为输入嵌入层),权重不冻结,参与训练。 语言模型 (PP2, PP3): DeepSeek3B-MoE 共有 12 层,PP2 和 PP3 各放置 6 层。 硬件与批次: 使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批次大小为 640。 优化器: 使用 AdamW 优化器,配合基于步数的调度器(step-based scheduler),初始学习率为 3e-5。

whisper.cpp 实战指南(Jetson Thor 平台)

git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp
cmake -B build -DGGML_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build -j --config Release
sh ./models/download-ggml-model.sh small
sh ./models/download-ggml-model.sh large-v3-turbo
  • tiny.en
  • tiny
  • base.en
  • base
  • small.en
  • small
  • medium.en
  • medium
  • large-v1
  • large-v2
  • large-v3
  • large-v3-turbo
./build/bin/whisper-cli -f samples/jfk.wav
./build/bin/whisper-cli -m /models/whisper.cpp/models/ggml-large-v3-turbo.bin -f samples/jfk.wav

使用 nmtui 配置 Jetson Thor Wi-Fi 热点(AP 模式)

iw list | grep "AP"
	Device supports AP-side u-APSD.
		 * AP
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		 * AP: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP/VLAN: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
		 * AP/VLAN: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
	Maximum associated stations in AP mode: 32
  • 如果没有 AP 字样,则不支持 AP 模式。
  1. 运行 sudo nmtui 并选择“编辑一个连接”
    • nmtui 主菜单中,确保选中“Edit a connection”选项。
    • 按下 <OK> 键。

添加一个新的连接。

llama.cpp 实战指南(Jetson Thor 平台):从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

计算能力(CC)定义了每种 NVIDIA GPU 架构的硬件特性支持的指令。在下表中查找您的GPU的计算能力。

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3
  • 高负载
vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8
  • 低负载

Jetson Thor 权威指南:从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南

平台配置与环境准备: 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP(Jetson Linux)安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒,以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7,它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术,通过 Docker 容器运行 vLLMTritonServer 等推理服务。

系统性能调优: 为了释放硬件全部潜力,文章强调了系统级的性能调优步骤:必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)(130W),并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率,禁用 DVFS 机制。测试结果显示,MAXN + jetson_clocks 组合能显著提升性能,在高负载下,FP8 模型的吞吐量提升约 18.5%,在低负载下,每 Token 平均延迟(TPOT)减少约 43%

量化模型基准测试结果: 文章对 Qwen3-8B 模型的多种量化精度(包括 BF16、FP8、FP4、Int4 等)进行了详尽的性能分析。

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于,当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低,无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键,但这将强制要求 将 Ubuntu 升级到 22.04,从而导致 需要重装系统可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外,文档还探讨了 替代推理引擎和云端推理 等备选方案,但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

  • 硬件环境:ARM64 架构,具体为 NVIDIA Jetson AGX Orin 开发者套件。

硬件环境: ARM64 架构,具体为 NVIDIA Jetson AGX Orin 开发者套件。 当前系统配置: JetPack版本:5.1.4 Ubuntu版本:20.04 CUDA版本:11.4 核心问题: vLLM和Ollama这两个主流的多模态大模型推理框架对CUDA和驱动版本有更高要求,而现有系统配置无法满足。 具体软件版本要求: vLLM: 至少需要CUDA 11.8。 Ollama: 需要Nvidia GPU计算能力5.