2 篇文章带有标签 “long-running-agents”

2026年3月29日星期日

Anthropic：面向长时间运行应用开发的 Harness 设计

在智能体（Agentic）编程的前沿领域，Harness 设计（测试与运行框架设计）是性能表现的关键。以下是我们如何推动 Claude 在前端设计和长时间运行的自主软件工程中进一步突破的实践。

作者：Prithvi Rajasekaran，Labs 团队成员

发布日期：2026年3月24日

Harness design for long-running application development

在过去的几个月里，我一直致力于解决两个相互关联的问题：如何让 Claude 产出高质量的前端设计，以及如何让它在无需人工干预的情况下构建完整的应用程序。这项工作源于我们早期在前端设计能力和长时间运行编程智能体 Harness 方面的尝试。当时，我和同事们通过提示词工程（Prompt Engineering）和 Harness 设计，能够将 Claude 的性能提升到远高于基准线的水平——但两者最终都遇到了瓶颈。

为了实现突破，我寻求了一种能够跨越两个完全不同领域的全新 AI 工程方法：一个由主观审美定义，另一个由可验证的正确性和可用性定义。受生成对抗网络（GAN）的启发，我设计了一种包含**生成器（Generator）和评估器（Evaluator）**智能体的多智能体结构。要构建一个能够可靠且具审美感地对输出进行评分的评估器，意味着首先要开发一套标准，将“这个设计好吗？

2026-03-29 08:00

2026年3月28日星期六

Anthropic：长时运行智能体的有效脚手架 (Harnesses)

这是一篇由 Anthropic 发布的技术博客文章，探讨了如何通过构建有效的“脚手架”（harnesses）来提升长时运行智能体（long-running agents）的工作效率。

发布日期：2025 年 11 月 26 日

Effective harnesses for long-running agents

智能体在跨越多个上下文窗口工作时仍面临挑战。我们从人类工程师身上汲取灵感，为长时运行的智能体构建了一个更有效的脚手架。

随着 AI 智能体（agents）能力的不断提升，开发者正越来越多地要求它们承担复杂的任务，这些任务往往需要持续数小时甚至数天的工作。然而，让智能体在多个上下文窗口（context windows）中保持连贯的进度仍然是一个悬而未决的问题。

长时运行智能体的核心挑战在于：它们必须在离散的“会话”中工作，且每个新会话开始时都没有之前发生的记忆。想象一下，一个软件项目由实行轮班制的工程师负责，而每位新来的工程师对上一班发生的事情毫无记忆。由于上下文窗口是有限的，且大多数复杂项目无法在单个窗口内完成，智能体需要一种方法来弥合多次编码会话之间的差距。

我们开发了一种方案，使 Claude Agent SDK 能够有效地跨多个上下文窗口工作。

2026-03-28 08:00

anthropic claude harness-engineering long-running-agents agent context-window claude-agent-sdk incremental-development git

2 篇文章带有标签 “long-running-agents”

2026年3月29日 星期日

Anthropic：面向长时间运行应用开发的 Harness 设计

2026年3月28日 星期六

Anthropic：长时运行智能体的有效脚手架 (Harnesses)

2026年3月29日星期日

2026年3月28日星期六