1 篇文章带有标签 “Sky-T1-32B-Flash”

Sky-T1-32B-Flash:在不牺牲准确性的情况下将推理成本削减50%

我们推出 Sky-T1-32B-Flash,这是一个可以将生成长度减少高达 50% 但保持准确性的推理模型。

我们很高兴推出 Sky-T1-32B-Flash,这是我们更新的推理语言模型,它显著减少了过度思考,在具有挑战性的问题上将推理成本降低了高达57%

根据 Lambda Cloud 的定价,使用 8xH100 只需 $275 即可完成整个训练方案,同时在数学、编程、科学和通用知识等领域保持了准确性。

为了促进透明度和协作,我们已开源了完整的流程—从数据生成和预处理到偏好优化和评估脚本,并公开提供模型权重和数据。

  • Github: 数据生成、响应重写、偏好优化和评估的代码
  • Dataset: 10K 偏好对数据集
  • HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型显著减少了生成的token长度,同时在具有挑战性的基准测试中保持强劲的性能。

我们的训练过程包括三个主要阶段:数据生成、响应重写和偏好优化。

在多个基准测试(MATH500、GPQA、MMLU)上,偏好优化减少了生成长度并基本维持了准确性。然而,我们观察到在编程的具有挑战性的问题(LiveCodeBench-Medium 和 -Hard)和最具挑战性的数学套件(AIME24 和 MATH500 Level 5)上准确性有所下降。这些结果表明,模型在需要更复杂推理的情况下思考不足。