2 篇文章带有标签 “long-running-agents”

Anthropic:面向长时间运行应用开发的 Harness 设计

在智能体(Agentic)编程的前沿领域,Harness 设计(测试与运行框架设计)是性能表现的关键。以下是我们如何推动 Claude 在前端设计和长时间运行的自主软件工程中进一步突破的实践。

作者:Prithvi Rajasekaran,Labs 团队成员

发布日期:2026年3月24日

在过去的几个月里,我一直致力于解决两个相互关联的问题:如何让 Claude 产出高质量的前端设计,以及如何让它在无需人工干预的情况下构建完整的应用程序。这项工作源于我们早期在前端设计能力和长时间运行编程智能体 Harness 方面的尝试。当时,我和同事们通过提示词工程(Prompt Engineering)和 Harness 设计,能够将 Claude 的性能提升到远高于基准线的水平——但两者最终都遇到了瓶颈。

为了实现突破,我寻求了一种能够跨越两个完全不同领域的全新 AI 工程方法:一个由主观审美定义,另一个由可验证的正确性和可用性定义。受生成对抗网络(GAN)的启发,我设计了一种包含**生成器(Generator)和评估器(Evaluator)**智能体的多智能体结构。要构建一个能够可靠且具审美感地对输出进行评分的评估器,意味着首先要开发一套标准,将“这个设计好吗?

Anthropic:长时运行智能体的有效脚手架 (Harnesses)

这是一篇由 Anthropic 发布的技术博客文章,探讨了如何通过构建有效的“脚手架”(harnesses)来提升长时运行智能体(long-running agents)的工作效率。

发布日期:2025 年 11 月 26 日

智能体在跨越多个上下文窗口工作时仍面临挑战。我们从人类工程师身上汲取灵感,为长时运行的智能体构建了一个更有效的脚手架。

随着 AI 智能体(agents)能力的不断提升,开发者正越来越多地要求它们承担复杂的任务,这些任务往往需要持续数小时甚至数天的工作。然而,让智能体在多个上下文窗口(context windows)中保持连贯的进度仍然是一个悬而未决的问题。

长时运行智能体的核心挑战在于:它们必须在离散的“会话”中工作,且每个新会话开始时都没有之前发生的记忆。想象一下,一个软件项目由实行轮班制的工程师负责,而每位新来的工程师对上一班发生的事情毫无记忆。由于上下文窗口是有限的,且大多数复杂项目无法在单个窗口内完成,智能体需要一种方法来弥合多次编码会话之间的差距。

我们开发了一种方案,使 Claude Agent SDK 能够有效地跨多个上下文窗口工作。