1 篇文章带有标签 “SFT”

State of GPT - Andrej Karpathy

了解 ChatGPT 等 GPT 助手的训练管道,从标记化到预训练、监督微调和人类反馈强化学习 (RLHF)。 深入研究有效使用这些模型的实用技术和心智模型,包括提示策略、微调、快速增长的工具生态系统及其未来的扩展。

Data Collection

Tokenization

GPT3 vs LLaMa

Pretraining

Pretraining

Base models learn powerful

Base models in the wild

SFT Dataset

RM Dataset

RM Dataset

RM Training

RL Training

RLHF

Assistant models in the wild