3 篇文章带有标签 “Reasoning”

2025年4月21日星期一

Sky-T1-7B：通过强化学习提升推理模型的潜力

Unlocking the Potential of Reinforcement Learning in Improving Reasoning Models

我们很高兴发布 Sky-T1-7B，这是一个在数学推理任务上达到 SOTA 水平的开源 7B 模型，它通过对 Qwen2.5-Math-7B 基础模型进行 SFT->RL->SFT->RL 四步训练而成。我们同时还发布了 Sky-T1-mini，这个模型是在 DeepSeek-R1-Distill-Qwen-7B 模型基础上使用简单的强化学习(RL)训练得到的，在流行的数学基准测试上接近 OpenAI o1-mini 的性能水平。我们进行了一系列消融实验，研究了 SFT 数据规模、RL 规模以及模型在 SFT 和 RL 后的 pass@k 性能。我们观察到，长链条 CoT SFT 通常可以提升模型的 pass@k 性能，而 RL 则提高了模型在较低生成预算下(即 pass@1)的性能，但有时会以牺牲解决方案的熵为代价。

图 1: 不同模型在四个流行数学推理任务(AIME24, AMC23, MATH500 和 OlympiadBench)上的平均准确率。

2025-04-21 02:00

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

我们推出 Sky-T1-32B-Flash，这是一个可以将生成长度减少高达 50% 但保持准确性的推理模型。

我们很高兴推出 Sky-T1-32B-Flash，这是我们更新的推理语言模型，它显著减少了过度思考，在具有挑战性的问题上将推理成本降低了高达57%。

根据 Lambda Cloud 的定价，使用 8xH100 只需 $275 即可完成整个训练方案，同时在数学、编程、科学和通用知识等领域保持了准确性。

为了促进透明度和协作，我们已开源了完整的流程—从数据生成和预处理到偏好优化和评估脚本，并公开提供模型权重和数据。

Github: 数据生成、响应重写、偏好优化和评估的代码
Dataset: 10K 偏好对数据集
HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型显著减少了生成的token长度，同时在具有挑战性的基准测试中保持强劲的性能。

我们的训练过程包括三个主要阶段：数据生成、响应重写和偏好优化。

在多个基准测试（MATH500、GPQA、MMLU）上，偏好优化减少了生成长度并基本维持了准确性。然而，我们观察到在编程的具有挑战性的问题（LiveCodeBench-Medium 和 -Hard）和最具挑战性的数学套件（AIME24 和 MATH500 Level 5）上准确性有所下降。这些结果表明，模型在需要更复杂推理的情况下思考不足。

2025-04-21 00:00

Sky-T1 Sky-T1-32B-Flash Post-Training Reasoning

2025年4月20日星期日

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview，这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是，Sky-T1-32B-Preview的训练成本不到450美元，这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

为此，一些值得注意的努力已经出现，旨在训练开放权重的数学领域推理模型，如Still-2和Journey。同时，我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中，我们在同一个模型中不仅在数学方面，而且在编码方面都取得了具有竞争力的推理表现。

模型	Sky-T1-32B-Preview	STILL-2	Journey	QwQ	o1
数据	✅	✅	❌	❌	❌
代码	✅	❌	❌	❌	❌
报告	✅	✅	✅	❌	❌
数学领域	✅	✅	✅	✅	✅
编程领域	✅	❌	❌	✅	✅
模型权重	✅	✅	❌	✅	❌

通过分享所有这些资源，我们旨在赋能学术界和开源社区在我们的工作基础上继续发展，探索新的可能性，并推动推理模型开发的边界。

拒绝采样：如果QwQ样本根据数据集提供的解决方案判断不正确，我们会将其丢弃。对于数学问题，我们与标准答案进行精确匹配。对于编码问题，我们执行数据集中提供的单元测试。

2025-04-20 23:00

Sky-T1 Sky-T1-32B-Preview Post-Training Reasoning