文档 - 军舰的日志

2026年7月12日星期日

拆解 WorkBuddy：系统提示词如何拼装，模型清单如何定义

研究对象是 WorkBuddy 桌面客户端的安装包——更准确地说，是它解包后的 resources/ 与 cli/ 两个目录。我们想知道两件事：

（1）对话时「我」到底由什么拼成？ （2）「我」能调用哪些模型、这些模型又从哪来？

答案出人意料地干净：它们分别落在两套声明式配置文件里——提示词模板库与产品配置文件。你此刻正在阅读的「我」，本质上就是这两套文件在运行时的一次实例化。

0. 为什么值得写

平时我们用 AI 助手，关注的是「它能不能帮我干活」。但如果你想知道「它是怎么被造出来的」，安装包本身就是最好的教材：没有编译混淆、没有黑盒，所有「性格」「能力边界」「可用武器」都白纸黑字写在那里。

这次我们顺着两条主线往下挖：

主线 A —— 大脑（提示词模板）：resources/templates/ 下的 19 个文件（约 2400 行），决定了「我是谁、能做什么、如何行动」。
主线 B —— 武器库（模型配置）：cli/product*.json 下的 5 个文件，声明了「我能调用哪些模型、怎么路由、怎么计费」。

一、主线 A：提示词模板体系（"我"的大脑）

1.1 三层结构

resources/templates 不是一堆散落的提示词，而是一套以「角色」为主轴、以「模式」为运行时约束的模板工程体系，基于 Jinja2 风格语法（{{ var }} 占位符 + {% if

2026-07-12 23:45

WorkBuddy：iOA 渠道模型完整对照表

数据来源：cli/product.ioa.json（iOA 部署渠道覆盖层）
共 82 个模型条目，按路由代号（vendor）分组。

一、概览

模型总数：82
支持工具调用 (toolCall)：67 / 82
支持图像 (images)：67 / 82
支持推理 (reasoning)：50 / 82
仅推理 (onlyReasoning)：44 / 82
默认模型 (isDefault)：1

路由代号（vendor）分布

路由代号	数量	说明
`e`	33	外部聚合（多为国内厂商模型）
`f`	22	首方/海外聚合
`tencent`	7	TACO 代码补全/轻量子模型通道（非对话模型，能力字段为 None）
`j`	7	特定海外模型
`i`	2	iOA 专属条目
`None`	11	未标注（auto/default 等特殊聚合项）

注意：vendor 是后端路由代号，并非明文厂商名；同一逻辑模型在不同渠道 vendor 可能不同（例如 minimax-m2.5 在基座是 f、在 cloudhosted 是 e）。下表「推测来源」列按模型 id 名称推断，仅供参考，非配置字段。

推理档位（reasoning.effort）分布

effort 档位	数量
medium	25
(无effort字段)	17
high	8

计费倍率（credits）分布

空值 = 未显式声明（按渠道默认计费，多为 x1.00）。

2026-07-12 23:34

workbuddy agent models ioa

WorkBuddy 模型定义与配置研究

研究对象：/Applications/WorkBuddy.app/Contents/Resources/app.asar.unpacked/（WorkBuddy 应用解包目录）核心结论：可用模型不是硬编码在程序里，而是由 cli/ 目录下一组声明式产品配置文件（product*.json） 定义。机制为「一个基座 + 四个部署覆盖层」，运行时由环境变量选择渠道并合并生成最终模型清单。

一、模型定义的落点

模型定义全部集中在 cli/ 目录下的 5 个产品配置文件里，resources/ 目录中没有模型定义（那里是提示词模板、技能、插件）。

2026-07-12 23:22

workbuddy agent models ioa

WorkBuddy 提示词模板体系深度解析

一、目录总览

resources/templates/ 共包含 15 个模板文件，组织为 4 个功能层级 + 1 个风格库：

2026-07-12 20:50

workbuddy agent templates prompt

Agent 系统设计的核心思想

一套面向 Agent 应用设计者的系统化设计原则、架构模式与实战指南。

基于对 WorkBuddy（CodeBuddy Code）工作空间源码、系统提示词、文档与架构的深度分析提炼而成。

概述：从 Chatbot 到 Agent 的范式跃迁
原则一：闭环执行架构
原则二：人格化身份体系
原则三：分层记忆系统
原则四：纵深防御安全模型
原则五：渐进式能力扩展
原则六：多模态工作模式
原则七：上下文精细管理
原则八：可组合的工具哲学
系统架构全景图
可复用的设计模式清单
设计决策框架
常见反模式

1. 概述：从 Chatbot 到 Agent 的范式跃迁

1.1 Chatbot 和 Agent 的本质区别

维度	Chatbot	Agent
核心能力	理解并回答	理解、计划、执行、验证
与环境的交互	被动接收文本	主动感知文件系统、网络、工具
输出的性质	文本回答	实际行动（文件变更、API 调用、部署）
正确性保障	依赖训练数据	通过执行测试、编译、对比等方式自我验证
会话生命周期	一问一答，无持续性	跨多轮持久化，可中断恢复
用户角色	提问者	协作者/监督者

设计 Agent 系统，首先要完成这个认知跃迁：Agent 不是"更强的 Chatbot"，而是一种全新的交互范式。

1.2 Agent 设计的核心张力

在设计 Agent 系统时，始终面临以下四对核心张力：

2026-07-12 18:57

workbuddy agent design architecture principles

2026年7月11日星期六

WorkBuddy 实战案例：设计创意

WorkBuddy 介绍

全场景智能体工作搭子

开启 AI Agent 办公新范式

AI 专家团全场景办公

WorkBuddy 是全能 AI 工作台，一人指挥，全行业专家执行，从策略到交付一站搞定

免部署·安装即用｜多专家·多模型协同｜全平台·桌面 / 主流 IM / 小程序

100+ 领域专家组成你的虚拟团队，运营、设计、数据、开发等全角色场景覆盖

一句话指令自主规划并交付完整结果

多专家并行协作，一个人顶一支团队

MCP 生态 + 自定义 Skills，能力无限扩展

设计系统（Design System）

场景：设计系统
模型：Deepseek-V4-Flash

输入（宫崎骏的太空之城风格设计系统）

帮我建立一套完整的 Design System，包含颜色体系、字体层级、间距规则和基础组件规范文档，风格为宫崎骏的太空之城

输出

2026-07-11 07:44

workbuddy agent design webapp skill poster illustration

2026年7月9日星期四

WorkBuddy 核心设计架构

基于 /Applications/WorkBuddy.app/Contents/Resources/app.asar.unpacked 逆向分析 WorkBuddy Desktop v5.2.5 + CodeBuddy CLI v2.106.4 | 腾讯出品

一、整体架构概览

2026-07-09 23:13

workbuddy agent architecture design security

WorkBuddy 实战案例：代码开发

WorkBuddy 介绍

全场景智能体工作搭子

开启 AI Agent 办公新范式

AI 专家团全场景办公

WorkBuddy 是全能 AI 工作台，一人指挥，全行业专家执行，从策略到交付一站搞定

免部署·安装即用｜多专家·多模型协同｜全平台·桌面 / 主流 IM / 小程序

100+ 领域专家组成你的虚拟团队，运营、设计、数据、开发等全角色场景覆盖

一句话指令自主规划并交付完整结果

多专家并行协作，一个人顶一支团队

MCP 生态 + 自定义 Skills，能力无限扩展

绘制架构图和流程图

输入

@file:open-ai-eco 研究这个项目，绘制架构图和流程图。

输出

2026-07-09 22:28

workbuddy agent coding webapp skill

2026年7月7日星期二

WorkBuddy 实战案例：日常办公

WorkBuddy 介绍

全场景智能体工作搭子

开启 AI Agent 办公新范式

AI 专家团全场景办公

WorkBuddy 是全能 AI 工作台，一人指挥，全行业专家执行，从策略到交付一站搞定

免部署·安装即用｜多专家·多模型协同｜全平台·桌面 / 主流 IM / 小程序

100+ 领域专家组成你的虚拟团队，运营、设计、数据、开发等全角色场景覆盖

一句话指令自主规划并交付完整结果

多专家并行协作，一个人顶一支团队

MCP 生态 + 自定义 Skills，能力无限扩展

截图重命名与分类

输入

把 截图 目录中的图像根据图像的内容进行重命名及文件夹分类。

输出

我先看看截图文件夹里有哪些图像，然后分析每张图的内容来重命名和分类。
截图文件夹有 11 张 PNG 图像。我需要逐一查看每张图的内容来判断如何命名和分类。我先读取这些图像。

我已经看完了全部 11 张截图，根据内容可以把它们分成三类。分类方案如下：

1. AI-概念图/

Claude-Code-上下文工程.png（Claude Code 的上下文工程结构图）
RAG-检索增强生成.png（ChatGPT / RAG 流程图）
Multi-Agent-ChatDev工作流.png（ChatDev 多智能体开发流程）

Claude-Agent-SDK/ Claude-Agent-SDK-封面.

2026-07-07 10:31

workbuddy agent office-automation excel-processing data-analysis visualization

2026年7月6日星期一

Claude Fable 实战指南：发现你的未知

原文：A field guide to Claude Fable 5: Finding your unknowns 作者：Thariq Shihipar（Anthropic 技术团队成员）

地图与领土

在使用 Claude Code 时，我常常想起地图与领土之间的区别。

地图，即待完成工作的表征，是我的提示词、技能和上下文——是我提供给 Claude 的东西。领土，则是工作需要实际发生的地方：代码库、现实世界、真实的约束条件。

地图与领土之间的差距，就是我所说的未知（unknowns）。当 Claude 遇到一个未知时，它需要根据对我意图的最佳猜测来做出决策。工作量越大，Claude 可能遇到的未知就越多。

Claude Fable 是我遇到的第一个模型，其工作质量的瓶颈在于我澄清未知的能力。

重要的是，仅仅提前规划并不总是足够的。你可能会在深入实现时发现未知，或者你的未知可能指向一个事实：你其实应该用完全不同的方式来解决问题。

我发现，使用 Fable 工作是一个迭代过程——在实现之前、之中和之后，不断发现自己的未知。

认识你的未知

你的未知是什么？当我带着问题来找 Claude 时，我倾向于将其分解为四种类型：

已知的已知（Known Knowns）：这本质上就是我的提示词中的内容。我告诉智能体我想要什么？
已知的未知（Known Unknowns）：我还有什么没搞清楚的，但我已经意识到我还没搞清楚？
未知的已知（Unknown Knowns）：有哪些事情如此显而易见，以至于我永远不会写下来，但看到时却能认出来？
未知的未知（Unknown Unknowns）：我完全没有考虑过什么？有哪些知识是我不知道自己不知道的？我知道某件事可以做得多好？

2026-07-06 23:52

translation claude fable unknowns agent coding design anthropic

开源 AI 生态研究项目 Git 大文件 LFS 配置教程与团队开发指南

GitHub 仓库初始化

git init
git add .
git commit -m "first commit"

关联远程仓库并推送

git remote add origin https://github.com/wang-junjian/open-ai-eco.git
git branch -M main
git push -u origin main

视频没有使用 Git LFS

remote: warning: File public/videos/open-design-webprototype.mp4 is 84.20 MB; this is larger than GitHub's recommended maximum file size of 50.00 MB
remote: warning: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.github.com.
remote: warning: See https://gh.io/lfs for more information.

解决方案：

一、全局配置 public/videos/ 下所有文件走 Git LFS 1.

2026-07-06 21:21

git lfs github open-source open-ai-eco

2026年7月5日星期日

智源对世界模型的思考（王仲远）

世界模型：预测下一个物理状态，理解世界演化。学习物理演绎的世界，编码物理规律，理解因果关系，推理未来状态。世界模型是智能体理解世界的基础。

智源对世界模型的思考（王仲远）

2026-07-05 20:31

baai world-model physical-ai 2026北京智源大会

2026年7月4日星期六

Andrej Karpathy 的 CLAUDE 编码准则

下面是 CLAUDE.md 文件的内容，用于改善 Claude Code 的行为，源自 Andrej Karpathy 的观察关于 LLM 编码陷阱的总结。

CLAUDE.md

旨在减少大语言模型常见编码错误的行为准则。可根据项目特定说明按需合并。

权衡： 本准则偏向谨慎而非速度。对于琐碎任务，请自行判断。

1. 编码前先思考

不要假设。不要掩饰困惑。要呈现权衡。

实施之前：

明确陈述你的假设。如果不确定，就提问。
若存在多种解读，请呈现出来——不要默默选择一种。
若有更简单的做法，请说出来。在必要时坚持己见。
若某事不清楚，就停下来。指出困惑所在。提问。

2. 简单至上

用最少的代码解决问题。不添加任何推测性内容。

不添加需求以外的功能。
不为一次性代码创建抽象。
不提供未要求的“灵活性”或“可配置性”。
不对不可能发生的场景进行错误处理。
如果你写了 200 行，而本可以 50 行完成，那就重写。

问问自己：“一位资深工程师会认为这过于复杂吗？” 如果会，就简化它。

3. 外科手术式的修改

只碰你必须改的。只清理你自己弄乱的。

编辑现有代码时：

不要“改进”相邻的代码、注释或格式。
不要重构没有坏的东西。
即使你有不同做法，也要遵循现有风格。
若注意到无关的无效代码，提出来——但不要删除。

当你的修改造成孤立代码时：删除由你的修改导致的未使用的导入/变量/函数。

2026-07-04 19:09

translation claude claude-code claude.md coding-guidelines andrej-karpathy agent llm ai

自我改进的 Harness 工程（Harness Engineering for Self-Improvement）

递归自我改进（recursive self-improvement, RSI） 的概念可以追溯到 I. J. Good (1965)，他将"超智能机器"定义为一个能够在所有智力活动中超越人类、并设计出更好的机器来改进自身的系统。Yudkowsky (2008) 使用"递归自我改进"这一术语来描述一个特定的反馈循环：AI 利用其当前的智能来改进产生其智能的认知机制。

这种反馈循环在现代 AI 中可能意味着模型直接重写自身的权重，或者更广泛地说，模型改进了训练流水线和部署系统，从而催生出一个在经济价值任务上表现更优的继任模型。AI 研究发展的速度在前沿实验室中已被证明正在急剧加速（Anthropic；OpenAI）。

我特意提到 "部署系统"，因为原始模型与真实世界环境之间的这一层，似乎与模型原始智能（即预训练后的评估）同等重要。Harness 是 AI 部署的重要组成部分，Claude Code 和 Codex 等成功的编码智能体产品已证明了这一点。Harness 是围绕基础模型的系统，负责编排执行、决定模型如何思考和规划、调用工具和执行动作、感知和管理上下文、存储产物以及评估结果。

本文将聚焦于 harness 工程相关的研究，以及它如何促进 RSI。

2026-07-04 09:08

translation harness self-improvement recursive-self-improvement agent loop lilianweng

2026年7月3日星期五

本周 AI 新闻 20260703

本周主线：Anthropic 双弹齐发 Sonnet 5 与 Claude Science，美团 LongCat-2.0 万亿参数模型亮剑国产算力，AI 独角兽 IPO 密集冲刺，优必选人形机器人订单破万——产业从实验室走向市场成为本周最强音。

本周看点

Anthropic 双弹齐发：Sonnet 5 性能逼近 Opus 4.8：价格仅为前者的三分之一，Agent 能力大幅跃升，同时推出 Claude Science 科研工作台，将多智能体编排推向科学计算场景。
美团 LongCat-2.0 万亿参数模型亮剑：业界首个在五万卡国产算力集群上完成全流程训练的万亿参数大模型，OpenRouter 全球调用量排名前三。
优必选 U1 人形机器人订单破万：消费级全尺寸人形机器人首发即获 13,361 台订单，标志着具身智能从实验室走向家庭的第一步。
AI 独角兽 IPO 密集窗口：Momenta、宇树科技、珞石机器人等 5 家 AI 企业冲刺上市，Anthropic 以 9,650 亿美元估值抢跑 OpenAI。
Meta 为防模型蒸馏划红线：内部限制使用 Claude Code 和 Codex，引发行业对 AI 时代「谁教会了谁」的深层讨论。

本周的六条主线——模型平权、智能体科研落地、编程工具体系化、机器人消费破冰、资本密集兑现、监管松绑——共同指向一个判断：AI 正从「能做什么」向「谁来做

2026-07-03 23:22

ai-weekly ai-governance anthropic google humanoid-robot ipo physical-ai 美团

AI 生态实验室 · 技术雷达：工作流程全景解读

本文系统梳理了「AI 生态实验室 · 技术雷达」的完整工作流程，从信息输入、项目筛选、研究落地到成果分享，形成一套可执行、可度量的常态化研究机制。

一、为什么需要一套固化流程

开源技术每天都在产生新变量。如果研究工作是"想到哪做到哪"，很容易陷入两个极端：要么因为信息过载而疲于奔命，要么因为缺乏目标感而长期停滞。我们需要的是一条从信息输入到技术落地的清晰链路，让每一天、每一周、每一个研究周期的产出都有明确的归属和节奏。

整个机制围绕三个核心问题展开：

节奏问题：每天、每周、每月到底该干什么？
方向问题：研究什么才能真正提升研发效率，而不是做无效功？
价值问题：研究成果怎么让团队看见、让业务用上？

下面这张图，就是我们对这三个问题的系统化回答。

二、全景架构：一张图看懂技术雷达

整个技术雷达的运转可以分为 三个层面 和 一条核心闭环。

三个层面

层面	角色	说明
信息输入层	外部信息源 + 内部需求	决定"看什么"
核心引擎层	AI 生态实验室 · 技术雷达	决定"怎么研"
成果输出层	项目 PPT + 技术期刊 + 镜像库 + Skill	决定"产出什么"

一条核心闭环

项目开展工作流程：趋势洞察 → 深度研究 → 构建项目 → 测试验证 → 内网部署 → 镜像库。

这条链路从"每天的信息扫描"开始，到&q

2026-07-03 21:42

workflow process radar open-source open-ai-eco

2026年7月1日星期三

智能问答售后服务系统

一、技术方案

1.1 总体架构

采用 “公众号前端 + 智能客服中台 + 知识库底座” 三层架构：

层级	功能	技术选型建议
接入层	公众号对话入口，支持文字、图片、视频等多模态输入	微信公众号开发接口
智能客服中台	意图识别、知识检索、问答生成、智能路由（AI/人工分流）	RAG架构 + 大模型API（通义千问/Qwen、文心一言等）
知识库底座	产品手册、FAQ、历史工单、维修案例的结构化存储与向量检索	向量数据库 + 结构化知识库

1.2 核心功能模块

智能问答：基于RAG（检索增强生成）架构，系统从知识库中检索相关文档，再由大模型生成精准答案。方案匹配准确率可达92%以上。

多模态故障识别：支持客户上传故障图片/视频，利用多模态大模型进行图像识别与故障推理，自动推送处理建议。

智能路由与转人工：AI首轮处理常规问题，疑难问题自动转接人工客服，实现“AI首轮服务＋人工兜底”的协同模式。

知识自进化：系统在问答过程中持续学习，客户采纳的答案自动整理为问答对，不断优化知识库。

1.3 实施路径（建议分三期）

2026-07-01 15:00

rag llm ai knowledge-base customer-service wechat

2026年6月30日星期二

SkVM：面向随处高效执行的技能编译

SkVM 论文

上海交通大学

摘要

LLM 智能体越来越多地将技能（skill）作为可复用的组合单元。尽管技能在不同智能体平台间共享，但现有系统将其视为原始上下文处理，导致同一技能在不同智能体上表现不一致。这种脆弱性损害了技能的可移植性与执行效率。

为应对这一挑战，我们分析了 118,000 个技能，并从传统编译器设计中汲取灵感。我们将技能视为代码，将 LLM 视为异构处理器。为使可移植性成为现实，我们将技能的需求分解为一组原语能力（primitive capabilities），并衡量每个模型-执行框架（model-harness）组合对这些能力的支持程度。基于这些能力画像，我们提出了 SkVM——一个面向可移植且高效技能执行的编译与运行时系统。在编译期，SkVM 执行基于能力的编译、环境绑定与并发提取。在运行期，SkVM 应用 JIT 代码固化（code solidification）与自适应重编译以优化性能。

我们在 8 个不同规模的 LLM 和 3 个智能体执行框架上评估了 SkVM，覆盖 SkillsBench 及代表性技能任务。结果表明，SkVM 显著提升了不同模型与环境下的任务完成率，同时降低 Token 消耗高达 40%。在性能方面，SkVM 通过增强并行性实现最高 3.2× 加速，并通过代码固化实现 19–50× 的延迟降低。

1. 引言

2026-06-30 00:24

translation arxiv paper skill agent compiler jit harness skvm

大模型推理加速：DFlash、DSpark 与 Eagle3 草稿模型选型与架构设计指南

在大语言模型（LLM）的生产落地中，自回归生成的 $O(N)$ 延迟始终是制约用户体验与系统吞吐的瓶颈。投机采样（Speculative Decoding）通过引入轻量级的“草稿模型（Draft Model）”先行生成候选 Token，再由大模型（Verification Model）进行并行校验，成为了当前最主流的加速方案。

本文将针对当前业界前沿的三种草稿模型方案——DFlash（纯并行）、DSpark（半自回归） 与 Eagle3（纯自回归） 进行深度架构剖析、技术指标对比及选型建议。

一、核心架构与生成机制对比

三种方案的本质区别在于“生成速度（并行度）”与“草稿质量（接受率）”的权衡。以下图表直观展示了它们在计算模式上的根本差异：

2026-06-30 00:00

dspark dflash eagle3 deepseek llm speculative-decoding draft-model

2026年6月29日星期一

DeepSpec 训练全流程详解（以 Qwen3 + DSpark 为例）

本文基于 DeepSpec 开源代码，以 Qwen3-4B + DSpark 为具体实例，从算法思想、模型架构、训练数据流、推理流程四个维度，逐行拆解代码，帮助你完整理解 DSpark 草稿模型的训练与推理工作原理。

DeepSpec 核心工作原理

DeepSpec 训练草稿模型的本质是：在目标模型的 backbone 架构上，构建一个更小的 draft 网络，使用目标模型预计算的 hidden states 作为监督信号进行训练。

因此，适配新模型的核心工作量是让 draft 模型能够"理解"目标模型的内部表示——这包括：

复用目标模型的 tokenizer、embedding、归一化层、旋转位置编码等组件
从目标模型的特定层抽取 hidden states 作为 draft 模型的输入
保持注意力机制、MLP 结构与目标模型一致

一、DSpark 是什么：核心思想

DSpark 是一种面向推测解码（Speculative Decoding）的草稿模型训练方法。它的核心洞察可以总结为一句话：

"让草稿模型在训练时就学会——给定目标模型某几层的 hidden states，一次性猜出接下来的 N 个 token 是什么。"

传统训练语言模型是自回归的：输入 t0, t1, t2，预测 t3。

2026-06-29 22:55

deepspec qwen3 dspark deepseek llm speculative-decoding draft-model

2026年7月12日 星期日

2026年7月11日 星期六

2026年7月9日 星期四

2026年7月7日 星期二

2026年7月6日 星期一

2026年7月5日 星期日

2026年7月4日 星期六

2026年7月3日 星期五

2026年7月1日 星期三

2026年6月30日 星期二

2026年6月29日 星期一

2026年7月12日星期日

2026年7月11日星期六

2026年7月9日星期四

2026年7月7日星期二

2026年7月6日星期一

2026年7月5日星期日

2026年7月4日星期六

2026年7月3日星期五

2026年7月1日星期三

2026年6月30日星期二

2026年6月29日星期一