利用多张 GPU 训练大语言模型 2025-04-04 less than 1 minute read 参考资料 李宏毅生成式 AI 时代下的机器学习(2025)助教课:利用多张 GPU 训练大型语言模型——从零开始介绍 DeepSpeed、Liger Kernel、Flash Attention 及 Quantization 【生成式AI時代下的機器學習(2025)】助教課:利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization Excalidraw The Ultra-Scale Playbook: Training LLMs on GPU Clusters Previous Next