definitions - 标签 - 军舰的日志

发表于《2025 LLM Year in Review》

2025 年，基于可验证奖励的强化学习（RLVR）脱颖而出，成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型（例如数学/代码谜题），大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算，并学会多种来回探索的策略以弄清楚事物（参见 DeepSeek R1 论文中的例子）。来源: Simon Willison 的网络日志

Andrej Karpathy

2025-12-19 12:00

definitions ai andrej-karpathy generative-ai llms llm-reasoning deepseek

1 篇文章带有标签 “definitions”

2025年12月19日星期五

发表于《2025 LLM Year in Review》

1 篇文章带有标签 “definitions”

2025年12月19日 星期五

发表于《2025 LLM Year in Review》 🔗

2025年12月19日星期五

发表于《2025 LLM Year in Review》