1 篇文章带有标签 “Gemini3”

Harness Engineering 实战:利用 Autoresearch 实现 AI 模型的自我进化

Andrej Karpathy 发起的 autoresearch 项目代表了从命令式编程向指令式编排的根本性转折。该项目不仅是一个技术工具,更是一种关于人类与人工智能在科研领域协作关系的深刻重塑。其核心理念在于将 AI 智能体置于研究流程的中心,使其能够独立完成从假设生成、代码修改、模型训练到结果评估的完整闭环,而无需人类在过程中间进行干预。

这一转变标志着 Harness Engineering 时代的到来。在这一范式下,研究人员的角色发生了质变,不再是直接编写解决具体问题的 Python 代码,而是编写用于指导 AI 智能体的自然语言指令集,即 program.md 文件。这种模式通过将复杂的机器学习实验简化为一种可自动执行的、具备“棘轮效应”的改进循环,实现了科研效率的指数级提升。

项目背景设定在一个虚构但具有高度前瞻性的未来:尖端 AI 研究已不再由人类在会议中通过同步信息来推进,而是由在超大规模算力集群上运行的自主智能体集群独立完成。autoresearch 仓库被视为这一未来时代的起点,展示了如何通过极简的工程结构构建出具备自我进化能力的科研框架。

这种架构的核心在于建立了一条明确的信任边界。prepare.py 作为不可变的真相来源,锁定了评估指标 val_bpb,从而防止智能体通过修改评估逻辑来伪造虚假的性能提升。相比之下,train.