文档 - 第 9 页 - 军舰的日志

2025年12月1日星期一

未来 5 年公司智算需求预测

用半精度浮点数（FP16）计算能力评估服务器的智能计算能力，服务器算力=处理器芯片数x每时钟周期执行单精度浮点运算次数x处理器主频x处理器核数。

全球算力概览

中国算力概览

截至 2025 年 3 月底，我国智算规模达 748EFLOPS（FP16），近五年平均增速达 49%。

公司算力概览

昇腾 910B4 (32GB) 算力概览

配置级别	硬件描述	FP16 峰值算力	备注
单卡	昇腾 910B4 (32GB)	280 TFLOPS	单卡 FP16 算力峰值
单机	Atlas 800I A2 服务器 (8 x 910B4)	2240 TFLOPS ( $2.24 \text{ PFLOPS}$ )	服务器搭载 8 张 910B4 卡
集群	5 台 Atlas 800I A2 服务器	11.2 PFLOPS	由 5 台服务器组成的集群

NVIDIA T4 (16GB) 算力概览

配置级别	硬件描述	FP16 峰值算力	备注
单卡	NVIDIA T4	65 TFLOPS	使用混合精度 Tensor Cores
单机	4 卡服务器	260 TFLOPS	服务器搭载 4 张 T4 卡
集群	4 台 4 卡服务器	1.04 PFLOPS	由 4 台服务器组成的集群

总算力

2025-12-01 10:00

ai-computing 智算算力 fp16 ascend-910b nvidia-t4 pflops compute-prediction

2025-12-01-reachy-mini

conda create -n reachy-mini python=3.10.9 -y
conda activate reachy-mini

pip install reachy-mini[mujoco]

2025-12-01 08:00

reachy-mini mujoco python conda robotics simulation

2025年11月24日星期一

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP：27.41.19.62

服务	说明	端口	模型	备注
whisperlivekit	实时语音识别服务	8000	Whisper `small` (默认) `large-v3-turbo`	带说话人分离
FunASR	实时语音识别服务	8000	语音识别：`paraformer-zh` 实时语音识别：`paraformer-zh-streaming` 实时语音端点检测：`fsmn-vad` 标点恢复：`ct-punc` 文本逆规范化：`fst_itn_zh`	实时与非实时一体化协同（`2pass`）服务模式
llama-server	GGUF 模型推理服务	8080	Qwen3 `Qwen3-8B-Q5_K_M.gguf`	模型名：qwen3 上下文长度：32K 不思考

系统设置

系统优化

最大功率模式（一次性设置）

sudo nvpmodel -m 0

启动最高频率（每次重启后设置）

sudo jetson_clocks

清理内存

sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

WhisperLiveKit

WhisperLiveKit - 实时语音识别

部署服务

tmux new -s wlk

默认容器内应用（标点识别有时会失灵 ⚠️）

2025-11-24 08:00

智能会议系统 jetson-thor whisperlivekit funasr llama-server qwen3 asr llm docker vllm

2025年11月21日星期五

FunASR - 基础语音识别工具包

FunASR 是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。

FunASR 快速入门

核心功能

工作流程

离线文件转写服务

FunASR离线文件转写软件包，提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。服务端集成有ffmpeg，支持各种音视频格式输入。软件包提供有html、python、c++、java与c#等多种编程语言客户端。

实时听写服务

FunASR实时语音听写软件包，集成了实时版本的语音端点检测模型、语音识别、语音识别、标点预测模型等。采用多模型协同，既可以实时的进行语音转文字，也可以在说话句尾用高精度转写文字修正输出，输出文字带有标点，支持多路请求。依据使用者场景不同，支持实时语音听写服务（online）、非实时一句话转写（offline）与实时与非实时一体化协同（2pass）3种服务模式。软件包提供有html、python、c++、java与c#等多种编程语言客户端。

FunASR 镜像

在线 CPU 版本

2025-11-21 08:00

funasr asr vad punctuation-restoration speaker-verification docker jetson-thor paraformer speech-recognition 语音识别

2025年11月20日星期四

SenseVoice

SenseVoice 是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。

SenseVoice

核心功能 🎯

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测

多语言识别： 采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍优于 Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。
服务部署： 具有完整的服务部署链路，支持多并发请求，支持客户端语言有，python、c++、html、java 与 c# 等。

架构图

语音识别（ASR）
语言识别（LID）
语音情感识别（SER）
音频事件检测（AED，比如笑声、掌声、背景音乐、咳嗽等）
逆文本归一化（ITN）

安装

克隆代码库

2025-11-20 08:00

sensevoice asr funasr speech-recognition emotion-recognition audio-event-detection onnx fastapi python 多语言语音识别

2025年11月19日星期三

SimulStreaming — 实时流式语音识别工具包

SimulStreaming 实现了 Whisper 模型的同步翻译和转录功能（在语音识别领域被称为流式传输）。SimulStreaming 采用了最先进的同步策略 AlignAtt，这使其具备极高的速度和效率。

安装

git clone https://github.com/ufal/SimulStreaming
cd SimulStreaming

pip install -r requirements.txt

从音频文件进行实时模拟

2025-11-19 08:00

simulstreaming asr whisper streaming-asr speech-recognition python 流式语音识别同声传译

2025年11月10日星期一

WhisperLiveKit - 实时语音识别

WhisperLiveKit 演示

实时、完全本地化的语音转文本，带说话人识别功能

WhisperLiveKit 架构

构建 WhisperLiveKit

运行 pytorch 容器 - CUDA (JetsonThor)

docker run -it \
    --ipc=host \
    --net=host \
    --runtime=nvidia \
    --name=whisperlivekit \
    -v ~/.cache:/root/.cache \
    -v /models:/models \
    nvcr.io/nvidia/pytorch:25.10-py3 \
    bash

生成证书

mkdir -p .cert && cd .cert

openssl req -x509 -newkey rsa:4096 \
  -keyout key.pem \
  -out cert.pem \
  -days 365 \
  -nodes \
  -subj "/C=CN/ST=ShanDong/L=JiNan/O=LNSoft/OU=LNSoft/CN=localhost/emailAddress=wjj@163.com"

参数解释：

-x509：生成自签名证书
-newkey rsa:4096：新建 4096 位 RSA 密钥
-keyout key.pem：输出私钥文件
-out cert.pem：输出证书文件
-days 365：证书有效期 365 天
-nodes：不加密私钥（即无需输入密码）
-subj：直接指定证书主题，跳过交互式输入

2025-11-10 08:00

whisperlivekit asr whisper speech-recognition jetson-thor docker websocket diarization python 实时语音识别

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

推理服务

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

vLLM

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

SGLang

2025-11-01 08:00

llm vllm sglang llama.cpp whisper.cpp cuda jetson-thor qwen3 推理模型量化

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

deepseek-ocr ocr document-understanding vlm vision-language-model image-to-markdown deepseek transformers

2025年10月19日星期日

whisper.cpp 实战指南（Jetson Thor 平台）

编译 whisper.cpp

克隆仓库

git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

编译 whisper.cpp

cmake -B build -DGGML_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build -j --config Release

下载模型

sh ./models/download-ggml-model.sh small
sh ./models/download-ggml-model.sh large-v3-turbo

tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
large-v3
large-v3-turbo

运行 whisper-cli

./build/bin/whisper-cli -f samples/jfk.wav
./build/bin/whisper-cli -m /models/whisper.cpp/models/ggml-large-v3-turbo.bin -f samples/jfk.wav

whisper-server

whisper.cpp/examples/server

2025-10-19 10:00

whisper.cpp whisper speech-recognition asr jetson-thor cuda openai-whisper 语音识别

2025年10月16日星期四

使用 nmtui 配置 Jetson Thor Wi-Fi 热点（AP 模式）

查看 Wi-Fi 设备是否支持 AP 模式

iw list | grep "AP"

	Device supports AP-side u-APSD.
		 * AP
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		 * AP: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP/VLAN: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
		 * AP/VLAN: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
	Maximum associated stations in AP mode: 32

如果没有 AP 字样，则不支持 AP 模式。

创建 Wi-Fi 热点

运行 sudo nmtui 并选择“编辑一个连接”。
- 在 nmtui 主菜单中，确保选中“Edit a connection”选项。
- 按下 <OK> 键。

2025-10-16 08:00

jetson-thor nmtui networkmanager wifi access-point 热点 networking nvidia

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

源码编译

克隆 llama.cpp

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

编译

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

模型部署

运行 llama-server

Qwen3-8B-GGUF

2025-10-15 08:00

llama.cpp llama-server gguf jetson-thor qwen3 gpt-oss cuda benchmarking model-deployment

2025年10月12日星期日

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

性能基准测试分析

部署模型

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

运行性能基准测试

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025-10-12 06:00

jetson-thor jetson qwen3 vllm benchmarking llm-benchmark fp8 fp4 quantization gguf

2025年10月4日星期六

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025-10-04 06:00

jetson-thor jetson nvidia vllm qwen3 model-deployment benchmarking fp8 fp4 quantization docker

2025年10月1日星期三

使用 Claude Agent SDK 构建智能体

Claude Agent SDK 是 Anthropic 发布的、用于在 Claude Code 基础上构建强大智能体（agents）的工具集合。该 SDK 最初是作为 Claude Code SDK（一个智能编码解决方案）发布的，旨在支持 Anthropic 内部的开发者效率。由于 Claude Code 已经超越了编码工具的范畴，被用于深度研究、视频制作和笔记记录等无数非编码应用，因此该工具被更名为 Claude Agent SDK，以反映其更广泛的愿景。

Building agents with the Claude Agent SDK

一、核心设计原则：赋予 Claude 计算机能力

Claude Agent SDK 的关键设计原则是让 Claude 拥有程序员日常使用的相同工具。这意味着 Claude 必须能够：在代码库中查找文件、编写和编辑文件、运行代码、调试、以及迭代执行这些操作直到成功。

通过允许 Claude 访问用户计算机（经由终端），并赋予其运行 bash 命令、编辑文件、创建文件和搜索文件的能力，它能够有效执行非编码任务，如：阅读 CSV 文件、搜索网络、构建可视化、解释指标等数字工作，从而创建出具有通用目的的智能体。

二、构建的新型智能体

赋予 Claude 计算机能力解锁了许多以前效率不高的智能体类型。SDK 提供了用于自动化任何工作流程的原语，开发者可以构建：

2025-10-01 06:00

claude-agent-sdk claude ai-agent 智能体 mcp agent-loop code-generation context-management anthropic

2025年9月27日星期六

【生成式人工智慧与机器学习导论2025】第二讲：上下文工程 (Context Engineering) — AI Agent 背后的关键技术

Context Engineering（上下文工程）是为解决 AI Agent 时代输入过长，避免塞爆 Context 的关键技术。其基本概念是 “把需要的放進去，不需要的清出來”。常用招数（基本方法）包括：

Select（挑选）：只挑选当下任务最关键的内容。这包括利用 RAG (检索增强生成) 检索额外资讯，并使用 Reranking 或 Small LLM 筛选关键词。此外，只挑选需要的工具（Tool RAG）和记忆（Memory RAG）。
Compress（压缩）：对冗长琐碎的内容进行精简和摘要。例如，将过去的对话历史或 Computer Use 产生的细节压缩，让遥远的记忆逐渐淡化，以节省 Context 空间。
Multi-Agent（多代理）：将复杂任务拆解并分派给多个子 Agent。子 Agent 独立处理细节，完成后只向 Lead Agent 回报最终结果，从而隔离复杂的互动过程，分散 Context 负担。

2025-09-27 20:00

context-engineering 上下文工程 ai-agent 智能体 rag retrieval-augmented-generation 李宏毅生成式人工智慧与机器学习导论2025

软件开发模式重构

2025-09-27 12:00

software-development 软件开发 ai-agent 智能体人工智能智能世界2035

macOS PDF2JPG（Automator）

本文档详细介绍了如何在 macOS 上使用 Automator 创建一个快速操作将 PDF 文件转换为 JPG 格式，每页一张。

开发 Automator 快速操作（“PDF2JPG”）

#!/bin/bash

# 加载 Homebrew 环境（适用于 Apple Silicon 芯片）
if [ -f "/opt/homebrew/bin/brew" ]; then
    eval "$(/opt/homebrew/bin/brew shellenv)"
fi

# 加载 Homebrew 环境（适用于 Intel 芯片）
if [ -f "/usr/local/bin/brew" ]; then
    eval "$(/usr/local/bin/brew shellenv)"
fi

# 确保 ImageMagick 在 PATH 中
export PATH="/usr/local/bin:/opt/homebrew/bin:$PATH"

// ...

安装 ImageMagick

brew install imagemagick

2025-09-27 08:00

automator pdf2jpg imagemagick pdf jpg macos 图像转换自动化 shell-script

2025年9月21日星期日

Claude Code

本文介绍 Claude Code 的上下文工程。它整合了多种输入来源，包括系统提示、内置工具、MCP工具、自定义子代理、记忆文件和对话历史，以全面理解并完成编程开发任务。还介绍了使用 Claude Code 在您的项目中提供全流程协助，如何编写提示词。

Claude Code 上下文工程

Claude Code 能为您的项目提供全流程协助

📌 计划模式

计划模式是指通过只读操作分析代码库来创建计划，非常适合探索代码库、规划复杂更改或安全地审查代码。

> Analyze the authentication system and suggest improvements
> 分析身份验证系统并提出改进建议。

> I need to refactor our authentication system to use OAuth2. Create a detailed migration plan.
> 我需要重构我们的身份验证系统以使用 OAuth2。创建一个详细的迁移计划。

  > What about backward compatibility?
  > 向后兼容性怎么办？

  > How should we handle database migration?
  > 我们应该如何处理数据库迁移？

探索代码库

2025-09-21 08:00

claude-code claude agent context-engineering mcp prompt-engineering 智能体提示词软件工程开发工具

2025年9月13日星期六

Claude Code 的配置与权限

Claude Code

安装

npm install -g @anthropic-ai/claude-code

设置

设置文件

settings.json 文件是通过分层设置配置 Claude Code 的官方机制：

用户设置 在 ~/.claude/settings.json 中定义，适用于所有项目。
项目设置 保存在您的项目目录中：
- .claude/settings.json 用于检入源代码控制并与团队共享的设置
- .claude/settings.local.json 用于不检入的设置，对个人偏好和实验很有用。Claude Code 会在创建时配置 git 忽略 .claude/settings.local.json。
对于 Claude Code 的企业部署，还支持企业托管策略设置。这些设置优先于用户和项目设置。系统管理员可以将策略部署到：
- macOS: /Library/Application Support/ClaudeCode/managed-settings.json
- Linux 和 WSL: /etc/claude-code/managed-settings.json
- Windows: C:\ProgramData\ClaudeCode\managed-settings.json

示例 settings.json

2025-09-13 08:00

claude-code settings permissions cli mcp slash-commands subagent environment-variables claude

2025年12月1日 星期一

2025年11月24日 星期一

2025年11月21日 星期五

2025年11月20日 星期四

2025年11月19日 星期三

2025年11月10日 星期一

2025年11月1日 星期六

2025年10月24日 星期五

2025年10月19日 星期日

2025年10月16日 星期四

2025年10月15日 星期三

2025年10月12日 星期日

2025年10月4日 星期六

2025年10月1日 星期三

2025年9月27日 星期六

2025年9月21日 星期日

2025年9月13日 星期六