军舰的日志 - 第 11 页

2025年11月19日星期三

SimulStreaming — 实时流式语音识别工具包

SimulStreaming 实现了 Whisper 模型的同步翻译和转录功能（在语音识别领域被称为流式传输）。SimulStreaming 采用了最先进的同步策略 AlignAtt，这使其具备极高的速度和效率。

安装

git clone https://github.com/ufal/SimulStreaming
cd SimulStreaming

pip install -r requirements.txt

从音频文件进行实时模拟

2025-11-19 08:00

2025年11月16日星期日

引用

发表于 X/Twitter 的推文（关于 AI 与可验证性）

凭借现在的人工智能，我们能够编写以前根本无法手工编写的新程序。我们通过指定目标（例如分类准确率、奖励函数）来做到这一点，并通过梯度下降搜索程序空间，以找到在该目标上表现良好的神经网络。

Karpathy 引用了他的「Software 2.0」博客文章。他指出，「可验证性」是人工智能优化中最具预测性的特征——如果一项任务是可验证的，那么它就可以直接或通过强化学习进行优化。而人工智能「练习」的环境必须满足三个要求：可重置、高效、可奖励。来源: Simon Willison 的网络日志

Andrej Karpathy

2025-11-16 12:00

ai andrej-karpathy generative-ai llms ai-agents

2025年11月10日星期一

WhisperLiveKit - 实时语音识别

WhisperLiveKit 演示

实时、完全本地化的语音转文本，带说话人识别功能

WhisperLiveKit 架构

构建 WhisperLiveKit

运行 pytorch 容器 - CUDA (JetsonThor)

docker run -it \
    --ipc=host \
    --net=host \
    --runtime=nvidia \
    --name=whisperlivekit \
    -v ~/.cache:/root/.cache \
    -v /models:/models \
    nvcr.io/nvidia/pytorch:25.10-py3 \
    bash

生成证书

mkdir -p .cert && cd .cert

openssl req -x509 -newkey rsa:4096 \
  -keyout key.pem \
  -out cert.pem \
  -days 365 \
  -nodes \
  -subj "/C=CN/ST=ShanDong/L=JiNan/O=LNSoft/OU=LNSoft/CN=localhost/emailAddress=wjj@163.com"

参数解释：

-x509：生成自签名证书
-newkey rsa:4096：新建 4096 位 RSA 密钥
-keyout key.pem：输出私钥文件
-out cert.pem：输出证书文件
-days 365：证书有效期 365 天
-nodes：不加密私钥（即无需输入密码）
-subj：直接指定证书主题，跳过交互式输入

2025-11-10 08:00

whisperlivekit asr whisper speech-recognition jetson-thor docker websocket diarization python 实时语音识别

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

推理服务

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

vLLM

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

SGLang

2025-11-01 08:00

llm vllm sglang llama.cpp whisper.cpp cuda jetson-thor qwen3 推理模型量化

2025年10月24日星期五

DeepSeek-OCR 研究与实测

DeepSeek-OCR：上下文光学压缩

DeepSeek-OCR 架构

训练数据

数据组成

数据标注

训练流程

训练 DeepEncoder

方法：遵循 Vary，使用紧凑语言模型和下一词元预测（next token prediction）框架进行训练。
数据：使用所有 OCR 1.0 和 OCR 2.0 数据，以及从 LAION 数据集中采样的 1 亿（100M）通用数据。
训练细节：训练 2 个 epoch，批次大小为 1280，使用 AdamW 优化器，配合余弦退火（cosine annealing）调度器，学习率为 5e-5。训练序列长度为 4096。

训练 DeepSeek-OCR

时机： DeepEncoder 准备好后进行。
数据： 使用训练数据。
并行策略： 采用流水线并行（PP），模型被分为 4 部分：
- DeepEncoder (PP0, PP1)：
  - PP0： 包含 SAM 和压缩器（作为视觉词元分析器），参数冻结。
  - PP1： 包含 CLIP 部分（作为输入嵌入层），权重不冻结，参与训练。
- 语言模型 (PP2, PP3)： DeepSeek3B-MoE 共有 12 层，PP2 和 PP3 各放置 6 层。
硬件与批次： 使用 20 个节点（每个节点配备 8 块 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批次大小为 640。
优化器： 使用 AdamW 优化器，配合基于步数的调度器（step-based scheduler），初始学习率为 3e-5。
训练速度： 纯文本数据：900 亿词元/天（90B tokens/day）；多模态数据：700 亿词元/天（70B tokens/day）。

2025-10-24 10:00

deepseek-ocr ocr document-understanding vlm vision-language-model image-to-markdown deepseek transformers

2025年10月19日星期日

whisper.cpp 实战指南（Jetson Thor 平台）

编译 whisper.cpp

克隆仓库

git clone https://github.com/ggml-org/whisper.cpp.git
cd whisper.cpp

编译 whisper.cpp

cmake -B build -DGGML_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build -j --config Release

下载模型

sh ./models/download-ggml-model.sh small
sh ./models/download-ggml-model.sh large-v3-turbo

tiny.en
tiny
base.en
base
small.en
small
medium.en
medium
large-v1
large-v2
large-v3
large-v3-turbo

运行 whisper-cli

./build/bin/whisper-cli -f samples/jfk.wav
./build/bin/whisper-cli -m /models/whisper.cpp/models/ggml-large-v3-turbo.bin -f samples/jfk.wav

whisper-server

whisper.cpp/examples/server

2025-10-19 10:00

whisper.cpp whisper speech-recognition asr jetson-thor cuda openai-whisper 语音识别

2025年10月16日星期四

使用 nmtui 配置 Jetson Thor Wi-Fi 热点（AP 模式）

查看 Wi-Fi 设备是否支持 AP 模式

iw list | grep "AP"

	Device supports AP-side u-APSD.
		 * AP
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		HE Iftypes: AP
				Rx HE MU PPDU from Non-AP STA
		 * AP: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP/VLAN: 0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70 0x80 0x90 0xa0 0xb0 0xc0 0xd0 0xe0 0xf0
		 * AP: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
		 * AP/VLAN: 0x00 0x20 0x40 0xa0 0xb0 0xc0 0xd0
	Maximum associated stations in AP mode: 32

如果没有 AP 字样，则不支持 AP 模式。

创建 Wi-Fi 热点

运行 sudo nmtui 并选择“编辑一个连接”。
- 在 nmtui 主菜单中，确保选中“Edit a connection”选项。
- 按下 <OK> 键。

2025-10-16 08:00

jetson-thor nmtui networkmanager wifi access-point 热点 networking nvidia

2025年10月15日星期三

llama.cpp 实战指南（Jetson Thor 平台）：从源码编译到 GGUF 模型部署与性能基准测试

本文将介绍如何在 Jetson Thor 平台上编译、部署和测试 llama.cpp 项目中的 GGUF 格式的大模型。

源码编译

克隆 llama.cpp

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

编译

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="110"
cmake --build build --config Release -j $(nproc)

模型部署

运行 llama-server

Qwen3-8B-GGUF

2025-10-15 08:00

llama.cpp llama-server gguf jetson-thor qwen3 gpt-oss cuda benchmarking model-deployment

2025年10月12日星期日

Jetson Thor 平台上 Qwen3 系列大模型性能基准测试分析

NVIDIA Jetson Thor 采用了 Blackwell 架构的 GPU。

性能基准测试分析

部署模型

vllm serve /models/Qwen/Qwen3-8B --served-model-name qwen3

运行性能基准测试

高负载

vllm bench serve \
    --base-url http://localhost:8000 \
    --model qwen3 \
    --tokenizer /models/Qwen/Qwen3-8B \
    --dataset-name random \
    --random-input-len 2048 \
    --random-output-len 128 \
    --num-prompts 100 \
    --max-concurrency 8

低负载

2025-10-12 06:00

jetson-thor jetson qwen3 vllm benchmarking llm-benchmark fp8 fp4 quantization gguf

2025年10月4日星期六

Jetson Thor 权威指南：从开箱到大模型部署与性能优化

该文章是对 NVIDIA Jetson Thor 平台进行大语言模型部署、系统优化和深度性能基准测试的权威指南。

平台配置与环境准备： 文章首先详细介绍了在 Jetson AGX Thor 开发套件上进行 BSP（Jetson Linux）安装流程。这包括下载 ISO 映像、使用 Balena Etcher 创建可启动 USB 棒，以及通过首次启动完成 UEFI 固件更新和 Ubuntu 初始设置。软件环境基于 JetPack 7，它提供了对前沿机器人和生成式 AI 的全面支持。部署环境采用云原生技术，通过 Docker 容器运行 vLLM 或 TritonServer 等推理服务。

系统性能调优： 为了释放硬件全部潜力，文章强调了系统级的性能调优步骤：必须通过 sudo nvpmodel -m 0 将功耗模式设置为最高性能模式 (MAXN)（130W），并使用 sudo jetson_clocks 锁定 CPU、GPU 和内存的核心频率，禁用 DVFS 机制。测试结果显示，MAXN + jetson_clocks 组合能显著提升性能，在高负载下，FP8 模型的吞吐量提升约 18.5%，在低负载下，每 Token 平均延迟（TPOT）减少约 43%。

量化模型基准测试结果：文章对 Qwen3-8B 模型的多种量化精度（包括 BF16、FP8、FP4、Int4 等）进行了详尽的性能分析。

2025-10-04 06:00

jetson-thor jetson nvidia vllm qwen3 model-deployment benchmarking fp8 fp4 quantization docker

2025年10月1日星期三

使用 Claude Agent SDK 构建智能体

Claude Agent SDK 是 Anthropic 发布的、用于在 Claude Code 基础上构建强大智能体（agents）的工具集合。该 SDK 最初是作为 Claude Code SDK（一个智能编码解决方案）发布的，旨在支持 Anthropic 内部的开发者效率。由于 Claude Code 已经超越了编码工具的范畴，被用于深度研究、视频制作和笔记记录等无数非编码应用，因此该工具被更名为 Claude Agent SDK，以反映其更广泛的愿景。

Building agents with the Claude Agent SDK

一、核心设计原则：赋予 Claude 计算机能力

Claude Agent SDK 的关键设计原则是让 Claude 拥有程序员日常使用的相同工具。这意味着 Claude 必须能够：在代码库中查找文件、编写和编辑文件、运行代码、调试、以及迭代执行这些操作直到成功。

通过允许 Claude 访问用户计算机（经由终端），并赋予其运行 bash 命令、编辑文件、创建文件和搜索文件的能力，它能够有效执行非编码任务，如：阅读 CSV 文件、搜索网络、构建可视化、解释指标等数字工作，从而创建出具有通用目的的智能体。

二、构建的新型智能体

赋予 Claude 计算机能力解锁了许多以前效率不高的智能体类型。SDK 提供了用于自动化任何工作流程的原语，开发者可以构建：

2025-10-01 06:00

claude-agent-sdk claude ai-agent 智能体 mcp agent-loop code-generation context-management anthropic

2025年9月27日星期六

【生成式人工智慧与机器学习导论2025】第二讲：上下文工程 (Context Engineering) — AI Agent 背后的关键技术

Context Engineering（上下文工程）是为解决 AI Agent 时代输入过长，避免塞爆 Context 的关键技术。其基本概念是 “把需要的放進去，不需要的清出來”。常用招数（基本方法）包括：

Select（挑选）：只挑选当下任务最关键的内容。这包括利用 RAG (检索增强生成) 检索额外资讯，并使用 Reranking 或 Small LLM 筛选关键词。此外，只挑选需要的工具（Tool RAG）和记忆（Memory RAG）。
Compress（压缩）：对冗长琐碎的内容进行精简和摘要。例如，将过去的对话历史或 Computer Use 产生的细节压缩，让遥远的记忆逐渐淡化，以节省 Context 空间。
Multi-Agent（多代理）：将复杂任务拆解并分派给多个子 Agent。子 Agent 独立处理细节，完成后只向 Lead Agent 回报最终结果，从而隔离复杂的互动过程，分散 Context 负担。

2025-09-27 20:00

context-engineering 上下文工程 ai-agent 智能体 rag retrieval-augmented-generation 李宏毅生成式人工智慧与机器学习导论2025

软件开发模式重构

2025-09-27 12:00

software-development 软件开发 ai-agent 智能体人工智能智能世界2035

macOS PDF2JPG（Automator）

本文档详细介绍了如何在 macOS 上使用 Automator 创建一个快速操作将 PDF 文件转换为 JPG 格式，每页一张。

开发 Automator 快速操作（“PDF2JPG”）

#!/bin/bash

# 加载 Homebrew 环境（适用于 Apple Silicon 芯片）
if [ -f "/opt/homebrew/bin/brew" ]; then
    eval "$(/opt/homebrew/bin/brew shellenv)"
fi

# 加载 Homebrew 环境（适用于 Intel 芯片）
if [ -f "/usr/local/bin/brew" ]; then
    eval "$(/usr/local/bin/brew shellenv)"
fi

# 确保 ImageMagick 在 PATH 中
export PATH="/usr/local/bin:/opt/homebrew/bin:$PATH"

// ...

安装 ImageMagick

brew install imagemagick

2025-09-27 08:00

automator pdf2jpg imagemagick pdf jpg macos 图像转换自动化 shell-script

2025年9月21日星期日

Claude Code

本文介绍 Claude Code 的上下文工程。它整合了多种输入来源，包括系统提示、内置工具、MCP工具、自定义子代理、记忆文件和对话历史，以全面理解并完成编程开发任务。还介绍了使用 Claude Code 在您的项目中提供全流程协助，如何编写提示词。

Claude Code 上下文工程

Claude Code 能为您的项目提供全流程协助

📌 计划模式

计划模式是指通过只读操作分析代码库来创建计划，非常适合探索代码库、规划复杂更改或安全地审查代码。

> Analyze the authentication system and suggest improvements
> 分析身份验证系统并提出改进建议。

> I need to refactor our authentication system to use OAuth2. Create a detailed migration plan.
> 我需要重构我们的身份验证系统以使用 OAuth2。创建一个详细的迁移计划。

  > What about backward compatibility?
  > 向后兼容性怎么办？

  > How should we handle database migration?
  > 我们应该如何处理数据库迁移？

探索代码库

2025-09-21 08:00

claude-code claude agent context-engineering mcp prompt-engineering 智能体提示词软件工程开发工具

2025年9月13日星期六

Claude Code 的配置与权限

Claude Code

安装

npm install -g @anthropic-ai/claude-code

设置

设置文件

settings.json 文件是通过分层设置配置 Claude Code 的官方机制：

用户设置 在 ~/.claude/settings.json 中定义，适用于所有项目。
项目设置 保存在您的项目目录中：
- .claude/settings.json 用于检入源代码控制并与团队共享的设置
- .claude/settings.local.json 用于不检入的设置，对个人偏好和实验很有用。Claude Code 会在创建时配置 git 忽略 .claude/settings.local.json。
对于 Claude Code 的企业部署，还支持企业托管策略设置。这些设置优先于用户和项目设置。系统管理员可以将策略部署到：
- macOS: /Library/Application Support/ClaudeCode/managed-settings.json
- Linux 和 WSL: /etc/claude-code/managed-settings.json
- Windows: C:\ProgramData\ClaudeCode\managed-settings.json

示例 settings.json

2025-09-13 08:00

claude-code settings permissions cli mcp slash-commands subagent environment-variables claude

2025年9月11日星期四

Claude Code 文档

Anthropic的“Claude Code”是一款终端内AI编程助手，旨在通过自然语言交互帮助开发者更快地编写、调试和管理代码。它提供了一系列功能，包括根据描述构建功能、识别并修复bug、理解复杂代码库以及自动化日常开发任务。用户可以通过简单的NPM安装和登录快速开始使用，并能通过聊天式的命令直接编辑文件、执行Shell命令和管理Git操作。该工具还支持自定义子代理以处理特定任务，并提供了灵活的配置选项，包括记忆管理、权限设置和环境变量，以适应个人、项目和企业级的开发需求。

Claude Code 概览

了解 Anthropic 的智能编程工具 Claude Code，它运行在你的终端中，帮你比以往更快地将创意转化为代码。

30 秒快速上手

前提条件：

Node.js 18 或更新版本
- 一个 Claude.ai（推荐）或 Anthropic Console 账户

# 安装 Claude Code
npm install -g @anthropic-ai/claude-code

# 进入你的项目目录
cd your-awesome-project

# 开始使用 Claude 编程
claude
# 首次使用时，系统会提示你登录

就是这么简单！你已经准备好使用 Claude 编写代码了。继续学习快速入门（5 分钟）→

（有特殊的设置需求或遇到问题？请参阅高级设置或故障排除。）

2025-09-11 08:00

claude-code claude ai-coding-assistant cli mcp subagent plan-mode git natural-language

2025年9月8日星期一

命令行编码智能体

Claude Code

安装

npm install -g @anthropic-ai/claude-code

aider

GitHub aider

安装

python -m pip install aider-install
aider-install

# DeepSeek
aider --model deepseek --api-key deepseek=<key>

OpenAI Codex CLI

GitHub codex

安装

npm install -g @openai/codex

Gemini CLI

GitHub gemini-cli

安装

npm install -g @google/gemini-cli

CodeBuddy Code

安装

npm install -g @tencent-ai/codebuddy-code

2025-09-08 08:00

claude-code aider openai-codex gemini-cli codebuddy-code cli coding-agent ai-agent

2025年9月7日星期日

稳定币

这些图表提供了关于稳定币市场的全面概览，展示了稳定币市值的显著增长，尤其是在2020年至2025年期间。资料强调，美元在稳定币中占据主导地位，99%的稳定币与美元挂钩，但同时也提到了与欧元、离岸人民币和黄金挂钩的稳定币。此外，它探讨了美国政府推广稳定币的主要原因，包括维持美元地位、满足美债需求和提升加密货币世界地位，并列出了获得合规核心牌照的主要司法管辖区，如美国、巴哈马、迪拜、澳大利亚、欧盟和新加坡。图表还展示了稳定币发行公司如何通过投资短期和长期国债来运作，并概述了香港稳定币沙盒计划的参与者，包括京东链、圆币创新以及渣打银行等，并最终讨论了稳定币对银行的潜在影响，包括利润损失和经济联系的降低。

2025-09-07 08:00

稳定币金融加密货币美元国债香港监管银行

2025年9月6日星期六

Google Nano Banana

输入图像	Google AI Studio	Gemini 2.5 Flash
	Generate an image of a banana wearing a costume.	生成一张香蕉穿戏服的图片。

		这是一张有破损的绝缘子的图像，在其它部位生成类似的训练样本

		生成一个鸟窝在杆塔上

	生成一寸和两寸的学生照，要求蓝色背景，衣服换成校服

	1. 复古优雅风：想象一下，带有荷叶边和蕾丝的维多利亚时代风格长裙，搭配精致的头饰和手套。 2. 未来科技感：尝试一些银色或金属质感的服装，线条简洁，可能还有一些发光的元素，展现未来主义的时尚。 3. 波西米亚风情：飘逸的印花长裙，流苏点缀，配上宽檐帽和层叠的项链，打造自由奔放的感觉。 4. 街头潮流：宽松的连帽衫、破洞牛仔裤、时尚运动鞋，再搭配一顶棒球帽，展现酷炫的街头风格。 5. 古典仙气风：轻纱曼舞的汉服或仙女裙，色彩柔和，刺绣精致，营造出超凡脱俗的意境。 6. 职业干练风：修身的西装外套，搭配衬衫和铅笔裙，展现自信和专业的职场女性形象。 7. 运动休闲风：舒适的运动套装，搭配时尚的运动鞋，既适合健身，也适合日常休闲。 8. 哥特暗黑风：黑色蕾丝、丝绒材质的礼服，搭配银饰和深色妆容，营造出神秘而华丽的哥特式美感。 9. 异域民族风：尝试一些具有民族特色的服装，比如印度的纱丽，日本的和服，或者非洲的蜡染服装，展现多元文化的魅力。