8 篇文章带有标签 “JetsonThor”

2025年11月10日星期一

WhisperLiveKit - 实时语音识别

实时、完全本地化的语音转文本，带说话人识别功能

docker run -it \
    --ipc=host \
    --net=host \
    --runtime=nvidia \
    --name=whisperlivekit \
    -v ~/.cache:/root/.cache \
    -v /models:/models \
    nvcr.io/nvidia/pytorch:25.10-py3 \
    bash

mkdir -p .cert && cd .cert

openssl req -x509 -newkey rsa:4096 \
  -keyout key.pem \
  -out cert.pem \
  -days 365 \
  -nodes \
  -subj "/C=CN/ST=ShanDong/L=JiNan/O=LNSoft/OU=LNSoft/CN=localhost/emailAddress=wjj@163.com"

-x509：生成自签名证书
-newkey rsa:4096：新建 4096 位 RSA 密钥
-keyout key.pem：输出私钥文件
-out cert.pem：输出证书文件
-days 365：证书有效期 365 天
-nodes：不加密私钥（即无需输入密码）
-subj：直接指定证书主题，跳过交互式输入

2025年11月10日 2 分钟 579 字

2025年10月24日星期五

DeepSeek-OCR 研究与实测

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

时机： DeepEncoder 准备好后进行。数据：使用训练数据。并行策略：采用流水线并行（PP），模型被分为 4 部分： DeepEncoder (PP0, PP1)： PP0：包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。 PP1：包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。硬件与批次：使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。优化器：使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。

2025年10月24日 1 分钟 375 字

JetsonThor Jetson Thor DeepSeek-OCR OCR

2025年10月19日星期日

whisper.cpp 实战指南（Jetson Thor 平台）

git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

cmake -B build -DGGML_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build -j --config Release

sh ./models/download-ggml-model.sh small
sh ./models/download-ggml-model.sh large-v3-turbo

tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
large-v3
large-v3-turbo

./build/bin/whisper-cli -f samples/jfk.wav
./build/bin/whisper-cli -m /models/whisper.cpp/models/ggml-large-v3-turbo.bin -f samples/jfk.wav

2025年10月19日 1 分钟 102 字

JetsonThor Jetson Thor whisper whisper.cpp TTS NVIDIA

2025年10月16日星期四

使用 nmtui 配置 Jetson Thor Wi-Fi 热点（AP 模式）

iw list | grep "AP"

	Device supports AP-side u-APSD.
		 * AP
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		 * AP: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP/VLAN: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
		 * AP/VLAN: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
	Maximum associated stations in AP mode: 32

如果没有 AP 字样，则不支持 AP 模式。

运行 sudo nmtui 并选择“编辑一个连接”。
- 在 nmtui 主菜单中，确保选中“Edit a connection”选项。
- 按下 <OK> 键。

添加一个新的连接。

2025年10月16日 1 分钟 236 字

JetsonThor Jetson Thor nmtui Wi-Fi AP NVIDIA

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

2025年10月15日 4 分钟 1,106 字

JetsonThor Jetson Thor Benchmark llama.cpp llama-server gguf Qwen3

2025年10月11日星期六

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025年10月11日 1 分钟 218 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年10月3日星期五

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025年10月3日 26 分钟 6,971 字

JetsonThor Jetson Thor Qwen3 Benchmark vLLM FP8 FP4

2025年6月14日星期六

具身端侧芯片 NVIDlA Jetson Thor 和 NVIDIA Isaac ROS 介绍

本文档详细介绍了NVIDIA Jetson Thor，这是一款为下一代人形机器人设计的强大计算平台，其特点包括卓越的AI性能、高速传感器处理、行业领先的安全性和强大的安全性。此外，文档还介绍了NVIDIA Isaac ROS，一个利用CUDA加速库和AI模型加速机器人开发的软件框架，并提及了NITROS以优化ROS 2的硬件加速。最后，还展示了Jetson AGX Thor开发套件和未来产品路线图，强调了该技术在复杂机器人应用中的应用，例如自主机械臂和移动机器人。