---
type: quote
author: Andrej Karpathy
title: 发表于《2025 LLM Year in Review》
linkUrl: https://karpathy.bearblog.dev/year-in-review-2025/
date: 2025-12-19 12:00:00 +0800
tags: [definitions, ai, andrej-karpathy, generative-ai, llms, llm-reasoning, deepseek]
---

2025 年，基于可验证奖励的强化学习（RLVR）脱颖而出，成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型（例如数学/代码谜题），大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算，并学会多种来回探索的策略以弄清楚事物（参见 DeepSeek R1 论文中的例子）。**来源**: [Simon Willison 的网络日志](https://simonwillison.net/2025/Dec/19/andrej-karpathy/)
