3 篇文章带有标签 “post-training”

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第十讲：人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑，这是一种用于更新人工智能模型知识的技术，而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练（Post Training）来解释其概念，其中前者侧重于植入特定事实，而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准，包括可靠性、泛化性和局部性，并介绍了两种主要方法：不改变模型参数和改变模型参数。展示了Rank-One Model Editing (ROME) 方法，它通过直接修改模型内部参数来实现知识更新。最后，还介绍了超网络（Hypernetwork），这是一种让人工智能学习如何进行模型编辑的技术，展示了其训练和测试过程。

【生成式AI時代下的機器學習(2025)】第十講：人工智慧的微創手術 — 淺談 Model Editing

2025-06-07 07:00

模型编辑 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm knowledge-update post-training rome hypernetwork

2025年4月21日星期一

Sky-T1-32B-Flash：在不牺牲准确性的情况下将推理成本削减50%

思考更少，成就更多：在不牺牲准确性的情况下将推理成本削减50%

我们推出 Sky-T1-32B-Flash，这是一个可以将生成长度减少高达 50% 但保持准确性的推理模型。

我们很高兴推出 Sky-T1-32B-Flash，这是我们更新的推理语言模型，它显著减少了过度思考，在具有挑战性的问题上将推理成本降低了高达57%。

根据 Lambda Cloud 的定价，使用 8xH100 只需 $275 即可完成整个训练方案，同时在数学、编程、科学和通用知识等领域保持了准确性。

为了促进透明度和协作，我们已开源了完整的流程—从数据生成和预处理到偏好优化和评估脚本，并公开提供模型权重和数据。

Github: 数据生成、响应重写、偏好优化和评估的代码
Dataset: 10K 偏好对数据集
HuggingFace: Sky-T1-32B-Flash 模型权重

图 1: 我们的新模型显著减少了生成的token长度，同时在具有挑战性的基准测试中保持强劲的性能。

什么是过度思考？过度思考指的是推理模型倾向于产生不必要的长响应，通常包含冗余或过度的推理步骤。

2025-04-21 08:00

sky-t1 sky-t1-32b-flash post-training reasoning overthinking efficient-reasoning preference-optimization response-rewriting skythought 推理模型

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

Sky-T1: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview，这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是，Sky-T1-32B-Preview的训练成本不到450美元，这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

概述

像o1和Gemini 2.0这样擅长推理的模型已经证明可以通过产生长链的思维过程等进步来解决复杂任务。然而，技术细节和模型权重无法获取，这对学术界和开源社区的参与造成了障碍。

为此，一些值得注意的努力已经出现，旨在训练开放权重的数学领域推理模型，如Still-2和Journey。同时，我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中，我们在同一个模型中不仅在数学方面，而且在编码方面都取得了具有竞争力的推理表现。

完全开源：共同推动进步

为确保我们的工作能够惠及更广泛的社区，我们完全致力于开源协作。我们开源所有细节（即数据、代码、模型权重），使社区能够轻松地复制和改进我们的成果：

基础设施：在单个代码库中构建数据、训练和评估模型。
数据：用于训练Sky-T1-32B-Preview的17K数据。
技术细节：我们的技术报告和wandb日志。
模型权重：我们的32B模型权重。

2025-04-21 07:00

sky-t1 sky-t1-32b-preview post-training reasoning qwen2.5 llama-factory deepspeed distillation open-source 推理模型