deepspeed - 标签 - 军舰的日志

2025年4月21日星期一

Sky-T1-32B-Preview: 在450美元内训练你自己的O1预览模型

我们推出了Sky-T1-32B-Preview，这是一个在流行的推理和编码基准测试上表现与o1-preview相当的推理模型。值得注意的是，Sky-T1-32B-Preview的训练成本不到450美元，这证明了以经济高效的方式复制高级推理能力是可能的。所有代码都是开源的。

概述

像o1和Gemini 2.0这样擅长推理的模型已经证明可以通过产生长链的思维过程等进步来解决复杂任务。然而，技术细节和模型权重无法获取，这对学术界和开源社区的参与造成了障碍。

为此，一些值得注意的努力已经出现，旨在训练开放权重的数学领域推理模型，如Still-2和Journey。同时，我们UC Berkeley的NovaSky团队一直在探索各种技术来发展基础模型和指令微调模型的推理能力。在这项工作中，我们在同一个模型中不仅在数学方面，而且在编码方面都取得了具有竞争力的推理表现。

完全开源：共同推动进步

为确保我们的工作能够惠及更广泛的社区，我们完全致力于开源协作。我们开源所有细节（即数据、代码、模型权重），使社区能够轻松地复制和改进我们的成果：

基础设施：在单个代码库中构建数据、训练和评估模型。
数据：用于训练Sky-T1-32B-Preview的17K数据。
技术细节：我们的技术报告和wandb日志。
模型权重：我们的32B模型权重。

2025-04-21 07:00

2025年4月4日星期五

利用多张 GPU 训练大语言模型

参考资料

2025-04-04 12:00

llm-training multi-gpu deepspeed flash-attention quantization liger-kernel distributed-training gpu-cluster 李宏毅 2025

2024年11月7日星期四

华为 Atlas A2 上使用 LLaMA-Factory 模型微调

济南人工智能计算中心

菜单

云资源
- ModelArts
  - 开发环境
    - Notebook

创建 Notebook

自定义镜像：llama2
类型：ASCEND
规格：Ascend: 8*Ascend910 ARM: 192核 768GB
存储配置：云硬盘EVS
- 磁盘规格：200GB

工作目录：/home/ma-user/work

下载模型

安装 modelscope

pip install --upgrade modelscope

SDK 下载模型脚本

编辑 download.py 文件

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen1.5-7B-Chat')

设置下载路径

export MODELSCOPE_CACHE=/home/ma-user/work

下载

python download.py

查看下载的模型

ll /home/ma-user/work/hub/Qwen/Qwen1___5-7B-Chat

修改模型配置文件

修改配置文件：Qwen/Qwen1___5-7B-Chat/config.json

{
  "torch_dtype": "float16",
}

NPU 不支持 bfloat16，模型配置文件需要修改为 float16。

2024-11-07 10:00

huawei atlas-a2 npu llama-factory fine-tuning lora deepspeed qwen modelscope llm

3 篇文章带有标签 “deepspeed”

2025年4月21日 星期一