LLM 智能体的外化:记忆、技能、协议与 Harness Engineering 统一综述
论文基础信息
- 论文:Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
- 论文ID:arXiv:2604.08224
- 发布时间:2026-04-09
- 核心定位:首篇系统梳理LLM智能体Harness工程的综述论文,提出了基于认知外化理论的智能体设计统一框架
核心观点
可靠的智能体能力不只是来自更强的模型本身,而是来自将认知负担系统性地转移到外部组件:
- 记忆外化:解决跨会话状态延续问题
- 技能外化:复用成熟的流程经验,避免每次都重新推理
- 协议外化:标准化交互规则,让工具调用、多智能体协作更稳定
- Harness(智能体引擎/管控框架) 是协调以上所有组件的统一运行层,是智能体系统的”认知环境”
什么是Harness?
Harness不是普通的工具链或者SDK,而是模型运行的完整认知环境:
- 模型本身只有通用推理能力,Harness决定了它能访问什么数据、能执行什么操作、怎么受到约束、怎么从错误中学习
- 智能体的能力不是模型单独具备的,而是模型和Harness环境耦合之后共同产生的
- Harness的核心作用是把零散的外部组件(内存、技能、协议)组合成连贯的智能行为,把无边界的推理任务转化为结构化的可控执行流程
Harness六大核心设计维度
| 维度 | 核心作用 | 具体内容 |
|——|———-|———-|
| 1. 智能体循环与控制流 | 智能体的时间骨架 | 实现「感知-检索-规划-执行-观察」的执行周期,同时管控执行边界:最大步长、递归深度、单次请求成本上限、超时限制等,避免无限循环和资源浪费 |
| 2. 沙箱与执行隔离 | 安全边界 + 认知边界 | 提供不同粒度的隔离环境,限制智能体的读写、网络访问权限,一方面防止误操作带来的风险,另一方面简化模型的推理环境,不用考虑无关状态 |
| 3. 人工监督与审批门限 | 可控性保障 | 提供可配置的干预点:
• 执行前审批:高危操作必须人工确认
• 执行后审核:自动执行但需要人工确认后才落地
• 风险触发式 escalation:正常情况自动执行,遇到敏感操作/低置信度结果时自动暂停请求人工输入 |
| 4. 可观测性与结构化反馈 | 可调试 + 自迭代基础 | 全链路记录每一次模型调用、工具执行、内存读写、决策分支,既可以用于调试、审计、事后复盘,也可以作为反馈数据驱动Harness自身的优化(比如失败的工具调用自动记录到内存,重复失败的技能自动标记需要更新) |
| 5. 配置、权限与策略编码 | 多场景适配能力 | 分层的策略管理:
• 用户级:个人偏好、信任边界
• 项目级:可用工具、可访问路径、审批规则
• 组织级:合规约束、成本上限、数据处理规则
无需修改模型和技能即可适配不同的安全等级要求 |
| 6. 上下文预算管理 | 稀缺资源优化 | 动态分配有限的上下文窗口:
• 摘要压缩旧的对话和执行历史
• 优先级驱逐不相关的上下文内容
• 分阶段加载技能(只有匹配到对应任务时才加载详细的技能说明) |
行业实践落地
目前主流的生产级智能体系统已经普遍采用Harness架构,设计上高度趋同:
- OpenAI Codex:每个任务运行在独立的云沙箱中,内置完整的执行循环、资源管控和全链路追踪
- Anthropic Claude Code:提供分级权限模式,从完全自动到每步都需要人工审批,适配不同风险等级的任务
- 共同特点:都把Harness作为独立的核心层来开发,而不是模型的附属功能
理论价值与未来方向
Harness工程本质是认知外化在智能体系统的体现:和人类历史上的文字、印刷术类似,它把原本需要模型内部完成的认知负担转移到外部基础设施,通过重构任务结构来提升整体效率和可靠性,而不是单纯靠提升模型参数规模。
未来的发展方向包括自进化Harness(自动根据执行结果优化自身的策略和流程)、多智能体共享的Harness基础设施、规划/评估过程的外化等。