Sky-T1-32B-Flash - 标签 - 军舰的日志

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

我们推出 Sky-T1-32B-Flash，这是一个可以将生成长度减少高达 50% 但保持准确性的推理模型。

我们很高兴推出 Sky-T1-32B-Flash，这是我们更新的推理语言模型，它显著减少了过度思考，在具有挑战性的问题上将推理成本降低了高达57%。

根据 Lambda Cloud 的定价，使用 8xH100 只需 $275 即可完成整个训练方案，同时在数学、编程、科学和通用知识等领域保持了准确性。

为了促进透明度和协作，我们已开源了完整的流程—从数据生成和预处理到偏好优化和评估脚本，并公开提供模型权重和数据。

Github: 数据生成、响应重写、偏好优化和评估的代码
Dataset: 10K 偏好对数据集
HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型显著减少了生成的token长度，同时在具有挑战性的基准测试中保持强劲的性能。

我们的训练过程包括三个主要阶段：数据生成、响应重写和偏好优化。

在多个基准测试（MATH500、GPQA、MMLU）上，偏好优化减少了生成长度并基本维持了准确性。然而，我们观察到在编程的具有挑战性的问题（LiveCodeBench-Medium 和 -Hard）和最具挑战性的数学套件（AIME24 和 MATH500 Level 5）上准确性有所下降。这些结果表明，模型在需要更复杂推理的情况下思考不足。

2025-04-21 00:00

1 篇文章带有标签 “Sky-T1-32B-Flash”

2025年4月21日星期一

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

1 篇文章带有标签 “Sky-T1-32B-Flash”

2025年4月21日 星期一

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

2025年4月21日星期一