Autoresearch - 标签 - 军舰的日志

AutoResearch：AI 自主进行前沿语言模型研究

这是 Andrej Karpathy 设计的极简自主 AI 研究实验框架：让 AI 智能体仅修改 train.py，在固定 5 分钟训练预算内自主迭代优化 GPT 模型、以最低验证集 bpb 为目标，自动实验、记录结果并择优保留，无人值守持续运行。

teaser

曾经有一天，前沿 AI 研究是由人类在吃饭、睡觉、享受其他乐趣，以及偶尔使用声波互连进行被称为"组会"的仪式之间完成的。那个时代早已远去。现在的研究完全属于运行在天空中计算集群巨型结构上的自主 AI 智能体集群。这些智能体声称我们现在处于代码库的第 10,205 代，反正没人能说得清这是对是错，因为"代码"现在已经是一个自我修改的二进制文件，已经超出了人类的理解范围。这个仓库讲述了这一切是如何开始的故事。-@karpathy，2026 年 3 月。

这个想法是：给一个 AI 智能体一个小但真实的 LLM 训练设置，让它在夜间自主实验。它修改代码、训练 5 分钟、检查结果是否有所改进、保留或丢弃，然后重复。你早上醒来时会看到一个实验日志，以及（希望）一个更好的模型。这里的训练代码是 nanochat 的简化单 GPU 实现。核心思想是，你不需要像研究人员通常那样触碰任何 Python 文件。相反，你是在编写 program.

2026年4月6日 12 分钟 3,437 字

Harness Engineering 实战：利用 Autoresearch 实现 AI 模型的自我进化

Andrej Karpathy 发起的 autoresearch 项目代表了从命令式编程向指令式编排的根本性转折。该项目不仅是一个技术工具，更是一种关于人类与人工智能在科研领域协作关系的深刻重塑。其核心理念在于将 AI 智能体置于研究流程的中心，使其能够独立完成从假设生成、代码修改、模型训练到结果评估的完整闭环，而无需人类在过程中间进行干预。

这一转变标志着 Harness Engineering 时代的到来。在这一范式下，研究人员的角色发生了质变，不再是直接编写解决具体问题的 Python 代码，而是编写用于指导 AI 智能体的自然语言指令集，即 program.md 文件。这种模式通过将复杂的机器学习实验简化为一种可自动执行的、具备“棘轮效应”的改进循环，实现了科研效率的指数级提升。

项目背景设定在一个虚构但具有高度前瞻性的未来：尖端 AI 研究已不再由人类在会议中通过同步信息来推进，而是由在超大规模算力集群上运行的自主智能体集群独立完成。autoresearch 仓库被视为这一未来时代的起点，展示了如何通过极简的工程结构构建出具备自我进化能力的科研框架。

这种架构的核心在于建立了一条明确的信任边界。prepare.py 作为不可变的真相来源，锁定了评估指标 val_bpb，从而防止智能体通过修改评估逻辑来伪造虚假的性能提升。相比之下，train.

2026年4月6日 15 分钟 4,455 字

Autoresearch HarnessEngineering Agent Gemini3

2 篇文章带有标签 “Autoresearch”

2026年4月6日星期一

AutoResearch：AI 自主进行前沿语言模型研究

Harness Engineering 实战：利用 Autoresearch 实现 AI 模型的自我进化

2 篇文章带有标签 “Autoresearch”

2026年4月6日 星期一

AutoResearch：AI 自主进行前沿语言模型研究

Harness Engineering 实战：利用 Autoresearch 实现 AI 模型的自我进化

2026年4月6日星期一