编码智能体的核心组件(Sebastian Raschka)

编码智能体的核心组件——编码智能体如何借助工具、记忆与仓库上下文,让大语言模型在实际应用中更高效

Sebastian Raschka 博士 2026年4月4日

本文将讲解编码智能体与智能体框架的整体设计:它们是什么、如何工作,以及各模块在实际中如何协同。读过我《从零构建大语言模型》《从零构建推理模型》两本书的读者经常问到智能体相关问题,因此我整理了这份可直接参考的说明。

总体而言,智能体之所以成为重要议题,是因为当下大语言模型实用系统的进步,不只在于模型本身更强,更在于我们如何使用模型。在许多真实场景中,模型外围的系统——如工具调用、上下文管理、记忆机制——与模型本身同等重要。这也解释了为何 Claude Code、Codex 这类系统,会比在普通聊天界面中使用同款模型显得能力强得多。

本文将拆解编码智能体的六大核心组件

编码智能体专为软件工程场景设计,其关键不只在于模型选择,更在于外围系统:仓库上下文、工具设计、提示词缓存稳定性、记忆能力、长会话连续性。

这个区分很重要,因为人们谈论大语言模型的编码能力时,常把模型、推理行为、智能体产品混为一谈。在展开编码智能体细节前,我先简要说明几个更宽泛概念的区别:大语言模型、推理模型与智能体。

可以简单类比:

  • 大语言模型是发动机
  • 推理模型是强化版发动机(性能更强,但使用成本更高)
  • 智能体框架则是让发动机高效运转的控制系统

代码评审知识图谱:code-review-graph

code‑review‑graph 是一款为 AI 编程助手打造的本地代码知识图谱工具,核心是用增量图谱替代全量读码,大幅降低 AI 上下文 Token 消耗、提升代码审查与理解效率。

基于 Tree‑sitter 解析代码结构,构建持久化增量知识图谱,通过 MCP 协议给 AI 提供精准最小上下文,Token 用量可降 5–10 倍,零配置开箱即用。

pip install code-review-graph
# cd <project-root>
code-review-graph install --platform claude-code

代码“图谱化”利器:Understand-Anything

这是一个通过多智能体(multi-agent)流水线将代码库或知识库转化为交互式知识图谱,并提供可视化看板和 AI 问答功能的 Claude Code 插件。

Understand Anything 将任意代码库、知识库或文档转化为可探索、可搜索、可对话的交互式知识图谱,支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等多平台。

/understand 命令调用 5 个 agent,/understand-domain 额外增加第 6 个:

Agent 职责
project-scanner 扫描项目文件,检测语言和框架
file-analyzer 提取代码结构(函数、类和导入),生成图节点和边
architecture-analyzer 识别架构层
tour-builder 生成引导式学习路径
graph-reviewer 验证图的完整性和引用完整性
domain-analyzer 提取业务领域、流程和处理步骤(由 /understand-domain 使用)
article-analyzer 从 wiki 文章中提取实体、论断和隐式关系(由 /understand-knowledge 使用)

文件分析器并行运行(最多 3 个并发)。支持增量更新 — 仅重新分析自上次运行以来发生更改的文件。

Claude Code 插件市场指南

User(用户范围) Project(项目范围) Local(本地范围)
生效范围 当前用户(跨所有项目) 该仓库的所有协作人员 仅限当前项目的当前用户
Settings
配置文件路径
~/.claude/settings.json .claude/settings.json .claude/settings.local.json
CLAUDE.md
指令文档
~/.claude/CLAUDE.md CLAUDE.md or .claude/CLAUDE.md CLAUDE.local.md
Skills
技能安装路径
~/.claude/skills/ .claude/skills/
Plugins
插件安装路径
~/.claude/plugins/ .claude/plugins/
MCP Server
MCP 服务器配置
~/.claude.json .mcp.json
Subagents
子智能体配置
~/.claude/agents/ .claude/agents/

命令行运行:

claude plugin marketplace add obra/superpowers-marketplace

Claude Code 中运行:

/plugin marketplace add obra/superpowers-marketplace

情感价值的全球化坐标:基于巴菲特与段永平投资框架的泡泡玛特2025年财报深度研读

在现代资本市场的评价体系中,泡泡玛特(POP MART)始终是一个充满争议且难以被传统零售模型精准定义的标的。截至2025年12月31日止的年度业绩报告显示,该公司在这一年实现了一次近乎“奇迹”的跃迁,其收益从2024年的人民币130.38亿元激增至371.20亿元,同比增速高达184.7% 1。对于普通投资者而言,这些冰冷的数字背后隐藏着一个深刻的商业本质:泡泡玛特正在完成从一种特定的“产品形态(盲盒)”向“情感价值(IP)”运营平台的范式转移。

这种转变是理解泡泡玛特核心价值的基石。在沃伦·巴菲特(Warren Buffett)的投资哲学中,企业的核心价值往往不在于其销售的实物,而在于其品牌在消费者心中占据的“排他性份额”。泡泡玛特在2025年展现出的惊人爆发力,本质上是其长期孵化的IP矩阵在全球范围内产生了情感共振。特别是以THE MONSTERS(LABUBU)为核心的明星IP,在这一年贡献了141.61亿元的收入,占比达到38.1%,这种由单一文化符号带动的消费热潮,验证了其IP具备了跨越国界和文化的“普适性” 1。

与此同时,中国著名投资者段永平(雪球ID:大道无形我有型)对该公司的评价也经历了一个从“看不懂”到“极度认可”的认知突破。他在2026年初的公开评论中指出,泡泡玛特的逻辑已经不再是所谓的“盲盒公司”,而是进化为一种类似于网易游戏或高尔夫运动的情绪资产 5。

泡泡玛特(9992.HK)投资深度分析报告

报告日期: 2026年4月15日
分析对象: 泡泡玛特国际集团(POP MART International Group,09992.HK)
创始人: 王宁(1987年生,河南新乡人)
分析视角: 巴菲特「护城河」+ 段永平「做对的事、把事做对」
Agent 辅助: WorkBuddy (GLM-5v-Turbo)

  1. 公司画像:泡泡玛特是什么?
  2. 创始人王宁:企业家素质评估
  3. 护城河分析(巴菲特框架)
  4. 财务数据深度解读
  5. 风险清单(段永平「不做不对的事」)
  6. 估值与投资策略
  7. 最终结论与操作建议

泡泡玛特的商业模式可以概括为:

全球艺术家IP孵化平台 × 潮流消费品制造零售 × 情绪经济基础设施

其核心链条为:

全球艺术家 → IP创作 → 泡泡玛特平台化运营(设计+供应链+渠道) → 盲盒/手办/毛绒等载体 → 全球消费者

关键特征:

  • 不是玩具公司,是IP运营公司 —— 王宁在多次访谈中反复强调:"我们更关注的是这个产业或者这些艺术家的表达本身。"
  • 不是卖产品,是卖文化 —— 从"卖产品"到"卖文化",从"中国的迪士尼"到"世界的泡泡玛特"
  • 平台化思维 —— 不依赖自有IP创作,而是成为全球艺术家的孵化器

2026 AI 指数报告:在模型超越人类的同时,我们正面临的五个残酷真相

技术正在以一种令人眩晕的速度降临。根据最新的《2026 年人工智能指数报告》(AI Index Report 2026),生成式 AI 在短短三年内就达到了近 53% 的人口级采用率。这一速度已经全面超越了个人电脑和互联网,成为人类历史上渗透最快的通用技术。

然而,这种疯狂的扩张背后正隐藏着一种深刻的断裂感。这种断裂不仅存在于技术与监管之间,更深植于全球地缘政治的核心——“AI 主权(AI Sovereignty)”已成为各国政策的定调词。我们正处于一个核心矛盾之中:AI 的能力正在呈指数级增长,但我们的治理框架、评价体系和基础设施却步履蹒跚。

“数据并没有指向单一方向,它揭示了一个规模化速度超过系统适应能力的领域。” 这种能力与准备度之间的鸿沟,是我们理解当下技术狂奔的唯一入口。

长期以来,美国在 AI 领域的霸权似乎建立在不可逾越的资金壁垒之上。但 2025 年的数据揭示了一个残酷的反直觉现状:资金优势不再是唯一的胜负手。

虽然美国 2025 年的 AI 私人投资达到了 2859 亿美元,是中国的 23 倍(124 亿美元),但模型性能的差距已几乎消失。Anthropic 顶尖模型的领先优势仅剩 2.7%,而中国的 DeepSeek-R1 甚至一度与美国顶级模型持平。

更令全球权力格局震荡的是人才引力的逆转:自 2017 年以来,流向美国的 AI 开发者数量骤降了 89%,仅在过去一年就

Hermes 智能体全面研究报告与 OpenClaw 对比分析

Hermes Agent 是由 Nous Research 开发的开源自主 AI 智能体,于 2026 年 2 月正式发布,其核心定位为 "与你共同成长的智能体"(The agent that grows with you)(1)。与传统的 AI 聊天机器人或 IDE 绑定的代码补全工具不同,Hermes Agent 是一个运行在用户服务器上的自主智能体,具有持久记忆和自我改进能力,能够在运行过程中不断学习和进化。

Hermes Agent 的技术架构采用模块化单代理持久循环设计,核心是 run_agent.py 中的 AIAgent 类(约 9200 行代码),负责同步编排整个生命周期:输入→推理→工具执行→内存更新→输出。该系统支持 Linux、macOS 和 WSL2 平台,用户可以通过一条 curl 命令完成安装,无需任何前置依赖,体现了其设计的简洁性和易用性。

在技术栈方面,Hermes Agent 基于 Python 3.11 + 开发,使用 uv (Astral) 管理,主要依赖包括 openai SDK 进行 LLM 通信、rich 和 prompt_toolkit 构建终端 UI、SQLite FTS5 实现会话持久化(97)。这种技术选择既保证了系统的灵活性,又确保了性能的稳定性。

Nous Research 是一家成立于 2022 年的美国开源

具身智能(Embodied AI)技术综述:从基础理论到工程实践

具身智能(Embodied AI)作为人工智能通往通用人工智能(AGI)的关键路径,近年来取得了突破性进展。本文基于 Every-Embodied 开源项目的丰富实践经验,系统性地综述具身智能领域的技术栈、算法演进、工程实践和前沿复现。全文涵盖:(1)具身智能的基础理论与发展历程;(2)机器人学基础(运动学、动力学、坐标变换);(3)计算机视觉在具身场景中的应用;(4)强化学习与模仿学习;(5)视觉-语言-动作(VLA)大模型全景;(6)视觉语言导航(VLN)技术;(7)世界模型最新进展;(8)无人机控制与规划专题;(9)仿真环境与真机部署;(10)数据集与评估基准。本文强调"理论-实践-复现"三位一体的学习路径,为工程师和从业者提供从入门到前沿复现的完整技术指南。

关键词:具身智能、机器人学习、视觉-语言-动作模型、VLA、视觉语言导航、VLN、世界模型、强化学习、模仿学习、MuJoCo仿真

  1. 引言
  2. 具身智能基础理论
  3. 机器人学基础
  4. 具身场景的计算机视觉
  5. 强化学习与模仿学习
  6. 视觉-语言-动作(VLA)大模型
  7. 视觉语言导航(VLN)
  8. 具身世界模型
  9. 无人机控制与规划专题
  10. 仿真环境与真机部署
  11. 数据集与评估基准
  12. 工程实践指南
  13. 总结与展望

人工智能的发展历程中,我们见证了从"非具身"(Disembodied)到"具身"(Embodied)的

用通俗易懂的方式理解 Harness Engineering

想象一下,你有一个非常聪明但有点冲动的助手——它知识渊博、能说会道,但有时候会:

  • 忘记五分钟前你们讨论的事情
  • 直接执行危险操作而不问你
  • 在复杂任务中迷路,绕来绕去
  • 做错了事,但你不知道为什么

这就是没有 Harness 的 LLM 智能体。

Harness 这个词在英文里有"马具"、"安全带"的意思。在 AI 智能体的世界里,它就是那个让智能体既能够发挥能力,又不会失控的"安全脚手架"。

这个隐喻是有意的:

  • 是 AI 模型——强大、快速,但它自己不知道去哪里
  • Harness是基础设施——约束、护栏、反馈循环,以富有成效地引导模型的力量
  • 骑手是人类工程师——提供方向,而不是亲自奔跑

用一个更贴近生活的比喻:Harness 就像是智能体的"驾驶舱 + 安全带 + 导航系统 + 黑匣子"的组合体

根据 Harness Engineering 将原始模型能力转化为可靠 Agent 行为的脚手架。实用的 Agent 最好被理解为在 Harness 内部运行的模型,而不是带有外围能力的模型。

在我们深入技术细节之前,让我们看看几个真实的例子,了解为什么 Harness 工程如此重要:

OpenAI 团队做了一件令人震惊的事情:他们用 AI 智能体构建了一个超过 100 万行代码的生产应用,而且零行代码是人工手写的

macOS Finder 中的“反向选择”功能实现(Automator)

通过 Automator 制作一个“快速操作”的方案。请按照以下的步骤操作:

  1. 打开 Automator,新建一个 “快速操作”
  2. 设置:“工作流程收到当前”选 “没有输入”,“位于”选 “Finder.app”
  3. 在搜索框输入 AppleScript,拖入 “运行 AppleScript” 动作。
  4. 清空原内容,粘贴以下这段代码:
on run {input, parameters}
    tell application "Finder"
        -- 获取当前窗口,如果没有窗口则退出
        if (count of windows) = 0 then return
        set win to front window
        
        -- 获取文件夹内所有对象的路径列表
        set all_items to every item of win
        set all_paths to {}
        repeat with i in all_items
            set end of all_paths to (POSIX path of (i as alias))
        end repeat
        
        -- 获取当前已选对象的路径列表
        set sel_items to selection
// ...

保存并命名为 “反向选择”。

Claude Managed Agents(托管智能体)开发者参考指南

这是一个运行在托管基础设施中的预构建、可配置智能体(Agent)框架,最适用于长时间运行的任务和异步工作。

Anthropic 提供了两种使用 Claude 构建应用的方式,分别适用于不同的使用场景:

Messages API Claude Managed Agents
定位 直接的模型提示词访问 运行在托管基础设施中的预构建、可配置智能体框架
最佳用途 自定义智能体循环和精细化控制 长时间运行的任务和异步工作
了解更多 Messages API 文档 Claude Managed Agents 文档

Claude Managed Agents 为将 Claude 作为自主智能体运行提供了框架和基础设施。无需构建自己的智能体循环、工具执行环境和运行时,你即可获得一个全托管的环境,让 Claude 能够安全地读取文件、运行命令、浏览网页并执行代码。该框架支持内置的提示词缓存、压缩以及其他性能优化,以实现高质量、高效的智能体输出。

Claude Managed Agents 基于四个核心概念构建:

Garry Tan(YC 总裁)- 大展宏图(煮沸海洋)

超级人工智能时代,是时候告别保守、提升雄心了

作者:Garry Tan | 2026年2月7日

核心观点(TL;DR): 我们对未来的恐惧,与我们的野心之渺小成正比。如果你的计划是维持现状,那么 AI 将令人恐惧;如果你的计划是创造某种翻天覆地的大事,那么 AI 就是你收到的最好消息。

你一定听过这句话:“别想一口气煮沸海洋(don't boil the ocean)。” 每一个在野心过大的会议上的人都说过这句话。在正常时期,这是个好建议,它能让团队保持专注,防止范围蔓延(scope creep)。但现在已非常规时期,我认为是时候让这句话退休了。

超级人工智能(Artificial Superintelligence)意味着,现在正是“煮沸海洋”的时候。我们可以先从煮沸几个湖泊开始。

最近我遇到了一家大学捐赠基金的私募投资负责人,他告诉我,他们的工程师在看到 Claude Code(注:Anthropic 开发的 AI 编码工具)的能力后,对自己丢掉工作感到极度恐惧。我能理解——这是人类的本能反应。但这反应是错的。这是在“正和游戏”的时刻做出的“零和游戏”反应。

我们不该担心如何用更廉价的方式重复过去的工作,为什么不把精力集中在那些我们从未梦想过能做成的事情上呢? 为什么那笔捐赠基金的净内部收益率(IRR)不能是 50% 而是 10%?

gstack:AI 驱动的软件生命周期全流程自动化

gstack 是由 YC 首席执行官 Garry Tan 发起的开源智能体技能集(Skills),旨在将 Claude Code 等 AI 编程助手重塑为一支全栈虚拟开发团队。它通过一套高度专业化的指令流,实现了从产品构思、架构设计、自动化编码到代码评审、质量保障及发布部署的软件全生命周期闭环开发

你:      我想为我的日历做一个每日简报应用。
你:      /office-hours(发起咨询)
Claude: [询问痛点 —— 要求提供具体的例子,而不是假设]

你:      多个 Google 日历,活动信息已过时,地点也是错的。
          准备工作耗时太长,而且效果不够好……

Claude: 我想挑战一下你的设定。你说的是“每日简报应用”,但你实际描述的是一个“AI 私人幕僚长”。
         [提取了 5 项你甚至没意识到自己已经描述出的功能]
         [挑战了 4 个前提 —— 你对此表示同意、反对或进行调整]
         [生成了 3 种实施方案及工作量预估]
         建议: 明天先上线最核心的切入点,从实际使用中学习。完整愿景是一个为期 3 个月的项目 —— 
               先从一个真正好用的每日简报开始。
         [编写设计文档 → 自动同步至下游技能]

// ...

英文版本

WikiLLM:基于 LLM 驱动的个人知识库

利用 LLM 构建个人知识库的系统。WikiLLM 将原始素材"编译"成结构化、交叉链接的高质量中文 Wiki,可在 Obsidian 中查看。

本项目基于 Andrej Karpathy 提出的理念构建。详见:LLM Knowledge Bases

WikiLLM 的工作流包括:

  1. 数据摄入:源文档(文章、论文、代码库、数据集、图像)被索引到 raw/ 目录
  2. Wiki 编译:LLM 增量地"编译"原始数据成 markdown 文件的 wiki,包含摘要、反向链接、分类概念和相互链接的文章
  3. IDE:Obsidian 用作前端查看原始数据、编译后的 wiki 和可视化
  4. 问答:LLM 可以通过研究相关数据来回答针对 wiki 的复杂问题
  5. 输出:结果渲染为 markdown 文件、Marp 幻灯片或 matplotlib 图像,可在 Obsidian 中查看
  6. Linting:LLM"健康检查"发现不一致、填补缺失数据、建议新文章候选
  7. 额外工具:诸如 wiki 上的朴素搜索引擎等额外工具
  • LLM 编写和维护所有 wiki 数据;手动编辑很少见
  • 用户探索和查询被归档回 wiki 以增强它
  • 系统专注于 markdown 文件和 Obsidian 兼容格式
  • 图像被下载到本地 以便 LLM 轻松引用

AutoResearch:AI 自主进行前沿语言模型研究

这是 Andrej Karpathy 设计的极简自主 AI 研究实验框架:让 AI 智能体仅修改 train.py,在固定 5 分钟训练预算内自主迭代优化 GPT 模型、以最低验证集 bpb 为目标,自动实验、记录结果并择优保留,无人值守持续运行。

teaser

曾经有一天,前沿 AI 研究是由人类在吃饭、睡觉、享受其他乐趣,以及偶尔使用声波互连进行被称为"组会"的仪式之间完成的。那个时代早已远去。现在的研究完全属于运行在天空中计算集群巨型结构上的自主 AI 智能体集群。这些智能体声称我们现在处于代码库的第 10,205 代,反正没人能说得清这是对是错,因为"代码"现在已经是一个自我修改的二进制文件,已经超出了人类的理解范围。这个仓库讲述了这一切是如何开始的故事。-@karpathy,2026 年 3 月

这个想法是:给一个 AI 智能体一个小但真实的 LLM 训练设置,让它在夜间自主实验。它修改代码、训练 5 分钟、检查结果是否有所改进、保留或丢弃,然后重复。你早上醒来时会看到一个实验日志,以及(希望)一个更好的模型。这里的训练代码是 nanochat 的简化单 GPU 实现。核心思想是,你不需要像研究人员通常那样触碰任何 Python 文件。相反,你是在编写 program.

Harness Engineering 实战:利用 Autoresearch 实现 AI 模型的自我进化

Andrej Karpathy 发起的 autoresearch 项目代表了从命令式编程向指令式编排的根本性转折。该项目不仅是一个技术工具,更是一种关于人类与人工智能在科研领域协作关系的深刻重塑。其核心理念在于将 AI 智能体置于研究流程的中心,使其能够独立完成从假设生成、代码修改、模型训练到结果评估的完整闭环,而无需人类在过程中间进行干预。

这一转变标志着 Harness Engineering 时代的到来。在这一范式下,研究人员的角色发生了质变,不再是直接编写解决具体问题的 Python 代码,而是编写用于指导 AI 智能体的自然语言指令集,即 program.md 文件。这种模式通过将复杂的机器学习实验简化为一种可自动执行的、具备“棘轮效应”的改进循环,实现了科研效率的指数级提升。

项目背景设定在一个虚构但具有高度前瞻性的未来:尖端 AI 研究已不再由人类在会议中通过同步信息来推进,而是由在超大规模算力集群上运行的自主智能体集群独立完成。autoresearch 仓库被视为这一未来时代的起点,展示了如何通过极简的工程结构构建出具备自我进化能力的科研框架。

这种架构的核心在于建立了一条明确的信任边界。prepare.py 作为不可变的真相来源,锁定了评估指标 val_bpb,从而防止智能体通过修改评估逻辑来伪造虚假的性能提升。相比之下,train.

Harness Engineering(驾驭工程):2026 AI 软件工程新范式

Harness Engineering 是 AI 时代的全新软件工程学科 —— 设计和实现系统来约束、引导、验证和修正 AI 智能体的行为,让强大但不可预测的 AI 模型能够可靠地完成复杂任务。

Harness Engineering 是设计和实现系统的学科,这些系统能够:

  1. 约束:定义 AI 智能体可以做什么(架构边界、依赖规则)
  2. 告知:告诉智能体应该做什么(上下文工程、文档体系)
  3. 验证:检查智能体是否正确完成任务(测试、 linting、CI 验证)
  4. 修正:当智能体出错时引导其自我修复(反馈循环、自我修正机制)

类比:AI 模型是一匹强大但无方向的骏马,Harness 是缰绳、马鞍和全套马具,人类工程师是骑手。没有 Harness 的 AI 是开阔场地里的纯种马——速度快、令人印象深刻,但完全无法用来完成任何实际工作。

AI 行业正在达成一个共识:底层模型的重要性远低于围绕它的系统。LangChain 的实验最能证明这一点:他们的编码智能体在 Terminal Bench 2.0 上的得分从 52.8% 提升到 66.5%,从排名前 30 跃升至前 5 —— 完全没有改动模型,只是优化了 Harness。

Andrej Karpathy:大语言模型构建个人知识库的实践指南

最近我发现一个非常实用的方法:利用大语言模型(LLM)为各类感兴趣的研究方向搭建个人知识库。这样一来,我近期消耗的模型令牌中,用于处理代码的占比大幅减少,更多被用于处理知识(以 Markdown 文件和图片形式存储)。最新的大语言模型在这方面表现十分出色。具体做法如下:

根据 Andrej Karpathy(前特斯拉 AI 总监、OpenAI 创始成员)在 2026 年 4 月分享的 “LLM Knowledge Bases”(大模型知识库) 概念,构建个人知识系统的方法论正在发生根本性的转变:放弃耗时的手动整理笔记,也暂时绕开复杂的 RAG(检索增强生成)系统;转而将 LLM 作为“全职图书管理员”,让它自动把海量原始资料“编译”成一个结构化的 Markdown Wiki。

基于他分享的工作流,以下是构建你自己 AI 驱动知识系统的核心逻辑与具体步骤:

总结行动指南: 要实践这一套理念,你可以从最简单的本地文件夹开始。专注于阅读和收集高质量的素材(存入 /raw),然后通过编写简单的 Python 脚本调用大模型 API,让 AI 帮你生成摘要、建立目录和双向链接。把你过去花在排版、打标签和整理文件夹上的时间,全部用来思考和提出更深刻的问题。

Karpathy 的这篇 X 帖子(2026 年 4 月 2 日)核心讲的是:用 LLM(大型语言模型)来构