Jetson - 标签 - 军舰的日志

2025年11月24日星期一

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP：27.41.19.62

服务	说明	端口	模型	备注
whisperlivekit	实时语音识别服务	8000	Whisper `small` (默认) `large-v3-turbo`	带说话人分离
FunASR	实时语音识别服务	8000	语音识别：`paraformer-zh` 实时语音识别：`paraformer-zh-streaming` 实时语音端点检测：`fsmn-vad` 标点恢复：`ct-punc` 文本逆规范化：`fst_itn_zh`	实时与非实时一体化协同（`2pass`）服务模式
llama-server	GGUF 模型推理服务	8080	Qwen3 `Qwen3-8B-Q5_K_M.gguf`	模型名：qwen3 上下文长度：32K 不思考

sudo nvpmodel -m 0

sudo jetson_clocks

sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

WhisperLiveKit - 实时语音识别

tmux new -s wlk

docker run -it \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  -e MODEL=small \
  -e PORT=8000 \
  -e LANG=zh \
  -e DIAR=true \
  wangjunjian/whisperlivekit

2025年11月24日 1 分钟 351 字

2025年10月24日星期五

DeepSeek-OCR 研究与实测

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

时机： DeepEncoder 准备好后进行。数据：使用训练数据。并行策略：采用流水线并行（PP），模型被分为 4 部分： DeepEncoder (PP0, PP1)： PP0：包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。 PP1：包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。硬件与批次：使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。优化器：使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。

2025年10月24日 1 分钟 375 字

JetsonThor Jetson Thor DeepSeek-OCR OCR

2025年10月19日星期日

whisper.cpp 实战指南（Jetson Thor 平台）

git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

cmake -B build -DGGML_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build -j --config Release

sh ./models/download-ggml-model.sh small
sh ./models/download-ggml-model.sh large-v3-turbo

tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
large-v3
large-v3-turbo

./build/bin/whisper-cli -f samples/jfk.wav
./build/bin/whisper-cli -m /models/whisper.cpp/models/ggml-large-v3-turbo.bin -f samples/jfk.wav

2025年10月19日 1 分钟 102 字

JetsonThor Jetson Thor whisper whisper.cpp TTS NVIDIA

2025年10月16日星期四

使用 nmtui 配置 Jetson Thor Wi-Fi 热点（AP 模式）

iw list | grep "AP"

	Device supports AP-side u-APSD.
		 * AP
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		 * AP: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP/VLAN: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
		 * AP/VLAN: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
	Maximum associated stations in AP mode: 32

如果没有 AP 字样，则不支持 AP 模式。

运行 sudo nmtui 并选择“编辑一个连接”。
- 在 nmtui 主菜单中，确保选中“Edit a connection”选项。
- 按下 <OK> 键。

添加一个新的连接。

2025年10月16日 1 分钟 236 字

JetsonThor Jetson Thor nmtui Wi-Fi AP NVIDIA

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

2025年10月15日 4 分钟 1,106 字

JetsonThor Jetson Thor Benchmark llama.cpp llama-server gguf Qwen3

2025年10月11日星期六

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025年10月11日 1 分钟 218 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年10月3日星期五

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025年10月3日 26 分钟 6,971 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年7月3日星期四

Jetson AGX Orin大模型部署挑战与系统升级

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于，当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低，无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键，但这将强制要求 将 Ubuntu 升级到 22.04，从而导致 需要重装系统 和 可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外，文档还探讨了 替代推理引擎和云端推理 等备选方案，但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

硬件环境：ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。

硬件环境： ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。当前系统配置： JetPack版本：5.1.4 Ubuntu版本：20.04 CUDA版本：11.4 核心问题： vLLM和Ollama这两个主流的多模态大模型推理框架对CUDA和驱动版本有更高要求，而现有系统配置无法满足。具体软件版本要求： vLLM：至少需要CUDA 11.8。 Ollama：需要Nvidia GPU计算能力5.

2025年7月3日 11 分钟 2,881 字

Jetson AGXOrin arm64 CUDA vLLM 多模态人形机器人泰安

2022年6月22日星期三

面向边缘场景的 AI 芯片

参数	规格
性能	472 GFLOPS
最大功耗	10 W
显存	4 GB

参数	规格
性能	4 TOPS
最大功耗	1 W

参数	规格
性能	3 TOPS
最大功耗	12 W

参数	规格
性能	8 TOPS
最大功耗	8.25 W

参数	规格
性能	22 TOPS (INT8) 11 TFLOPS (FP16)
最大功耗	8 W

Firefly 自营店

2022年6月22日 5 分钟 1,364 字

GPU VPU NPU Jetson Movidius 昇腾 EdgeAI

9 篇文章带有标签 “Jetson”

2025年11月24日 星期一

2025年10月24日 星期五

2025年10月19日 星期日

2025年10月16日 星期四

2025年10月15日 星期三

2025年10月11日 星期六

2025年10月3日 星期五

2025年7月3日 星期四

2022年6月22日 星期三