1 篇文章带有标签 “Sky-T1-32B-Preview”

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview,这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是,Sky-T1-32B-Preview的训练成本不到450美元,这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

为此,一些值得注意的努力已经出现,旨在训练开放权重的数学领域推理模型,如Still-2Journey。同时,我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中,我们在同一个模型中不仅在数学方面,而且在编码方面都取得了具有竞争力的推理表现。

模型
Sky-T1-32B-Preview
STILL-2
Journey
QwQ
o1
数据
代码
报告
数学领域
编程领域
模型权重

通过分享所有这些资源,我们旨在赋能学术界和开源社区在我们的工作基础上继续发展,探索新的可能性,并推动推理模型开发的边界。

拒绝采样: 如果QwQ样本根据数据集提供的解决方案判断不正确,我们会将其丢弃。对于数学问题,我们与标准答案进行精确匹配。对于编码问题,我们执行数据集中提供的单元测试。