利用多张 GPU 训练大语言模型 参考资料 李宏毅生成式 AI 时代下的机器学习(2025)助教课:利用多张 GPU 训练大型语言模型——从零开始介绍 DeepSpeed、Liger Kernel、Flash Attention 及 Quantization 【生成式AI時代下的機器學習(2025)】助教課:利用多張GPU訓練大型語言模型—從零開始介紹DeepSpeed、Liger Kernel、Flash Attention及Quantization Excalidraw The Ultra-Scale Playbook: Training LLMs on GPU Clusters 2025-04-04 04:00 · llm-trainingmulti-gpudeepspeedflash-attentionquantizationliger-kerneldistributed-traininggpu-cluster李宏毅2025