13 篇文章带有标签 “andrej-karpathy”

2026年7月4日星期六

Andrej Karpathy 的 CLAUDE 编码准则

下面是 CLAUDE.md 文件的内容，用于改善 Claude Code 的行为，源自 Andrej Karpathy 的观察关于 LLM 编码陷阱的总结。

CLAUDE.md

旨在减少大语言模型常见编码错误的行为准则。可根据项目特定说明按需合并。

权衡： 本准则偏向谨慎而非速度。对于琐碎任务，请自行判断。

1. 编码前先思考

不要假设。不要掩饰困惑。要呈现权衡。

实施之前：

明确陈述你的假设。如果不确定，就提问。
若存在多种解读，请呈现出来——不要默默选择一种。
若有更简单的做法，请说出来。在必要时坚持己见。
若某事不清楚，就停下来。指出困惑所在。提问。

2. 简单至上

用最少的代码解决问题。不添加任何推测性内容。

不添加需求以外的功能。
不为一次性代码创建抽象。
不提供未要求的“灵活性”或“可配置性”。
不对不可能发生的场景进行错误处理。
如果你写了 200 行，而本可以 50 行完成，那就重写。

问问自己：“一位资深工程师会认为这过于复杂吗？” 如果会，就简化它。

3. 外科手术式的修改

只碰你必须改的。只清理你自己弄乱的。

编辑现有代码时：

不要“改进”相邻的代码、注释或格式。
不要重构没有坏的东西。
即使你有不同做法，也要遵循现有风格。
若注意到无关的无效代码，提出来——但不要删除。

当你的修改造成孤立代码时：删除由你的修改导致的未使用的导入/变量/函数。

2026-07-04 19:09

2026年6月9日星期二

引用

发表于 Twitter/X 的推文（关于 Claude Fable 5）

随着可用的软件越来越像拧开水龙头一样唾手可得，我感到很多事情都在发生变化。杰文斯悖论开始显现，我对软件的需求也在大幅增长。你可以要求任何东西——解释器、可视化工具、仪表盘、定制的单次使用应用……你可以把测试套件扩大 10 倍，自动优化代码，运行大型研究项目并用自定义 HTML 展示结果，什么都可以！《黑客帝国》里说的「解放你的思想」。来源: Simon Willison 的网络日志

Andrej Karpathy

2026-06-09 12:00

ai andrej-karpathy generative-ai llms anthropic jevons-paradox claude-mythos

2026年5月10日星期日

LLM Wiki：基于大语言模型的个人知识库构建模式

karpathy/llm-wiki.md

使用大语言模型（LLM）构建个人知识库的模式。

这是一份概念文件，设计用于复制粘贴到你自己的 LLM 智能体中（例如 OpenAI Codex、Claude Code、OpenCode / Pi 等）。它的目标是传达高层级的理念，而具体细节将由你的智能体与你协作构建。

核心理念

大多数人与 LLM 和文档打交道的体验看起来像是 RAG：你上传一批文件，LLM 在查询时检索相关片段，然后生成答案。这确实有效，但 LLM 每次都要从零开始重新发现知识，没有任何积累。当你问一个需要综合五份文档的微妙问题时，LLM 必须每次都找到并拼凑相关片段，没有任何东西被沉淀下来。NotebookLM、ChatGPT 文件上传以及大多数 RAG 系统都是这样工作的。

这里的理念不同。与其仅在查询时从原始文档中检索，LLM 增量式地构建并维护一个持久的维基 —— 一个结构化的、相互关联的 Markdown 文件集合，位于你和原始来源之间。当你添加新来源时，LLM 不只是将其索引以备后用。它会阅读来源，提取关键信息，并将其整合到现有维基中 —— 更新实体页面、修订主题摘要、标注新数据与旧主张的矛盾之处、强化或挑战不断演进的综合结论。知识被编译一次，然后保持最新，而不是每次查询都重新推导。

这就是关键区别：维基是一个持久的、复合增长的产物。

2026-05-10 08:00

llm-wiki knowledge-base personal-knowledge-management rag obsidian markdown andrej-karpathy

2026年4月7日星期二

WikiLLM：基于 LLM 驱动的个人知识库

WikiLLM

利用 LLM 构建个人知识库的系统。WikiLLM 将原始素材"编译"成结构化、交叉链接的高质量中文 Wiki，可在 Obsidian 中查看。

本项目基于 Andrej Karpathy 提出的理念构建。详见：LLM Knowledge Bases

项目概述

WikiLLM 的工作流包括：

数据摄入：源文档（文章、论文、代码库、数据集、图像）被索引到 raw/ 目录
Wiki 编译：LLM 增量地"编译"原始数据成 markdown 文件的 wiki，包含摘要、反向链接、分类概念和相互链接的文章
IDE：Obsidian 用作前端查看原始数据、编译后的 wiki 和可视化
问答：LLM 可以通过研究相关数据来回答针对 wiki 的复杂问题
输出：结果渲染为 markdown 文件、Marp 幻灯片或 matplotlib 图像，可在 Obsidian 中查看
Linting：LLM"健康检查"发现不一致、填补缺失数据、建议新文章候选
额外工具：诸如 wiki 上的朴素搜索引擎等额外工具

核心原则

LLM 编写和维护所有 wiki 数据；手动编辑很少见
用户探索和查询被归档回 wiki 以增强它
系统专注于 markdown 文件和 Obsidian 兼容格式
图像被下载到本地 以便 LLM 轻松引用

目录结构

2026-04-07 20:00

wikillm llm knowledge-base obsidian markdown rag andrej-karpathy 个人知识库 claude-code

2026年4月6日星期一

AutoResearch：AI 自主进行前沿语言模型研究

这是 Andrej Karpathy 设计的极简自主 AI 研究实验框架：让 AI 智能体仅修改 train.py，在固定 5 分钟训练预算内自主迭代优化 GPT 模型、以最低验证集 bpb 为目标，自动实验、记录结果并择优保留，无人值守持续运行。

README

teaser

曾经有一天，前沿 AI 研究是由人类在吃饭、睡觉、享受其他乐趣，以及偶尔使用声波互连进行被称为"组会"的仪式之间完成的。那个时代早已远去。现在的研究完全属于运行在天空中计算集群巨型结构上的自主 AI 智能体集群。这些智能体声称我们现在处于代码库的第 10,205 代，反正没人能说得清这是对是错，因为"代码"现在已经是一个自我修改的二进制文件，已经超出了人类的理解范围。这个仓库讲述了这一切是如何开始的故事。-@karpathy，2026 年 3 月。

这个想法是：给一个 AI 智能体一个小但真实的 LLM 训练设置，让它在夜间自主实验。它修改代码、训练 5 分钟、检查结果是否有所改进、保留或丢弃，然后重复。你早上醒来时会看到一个实验日志，以及（希望）一个更好的模型。这里的训练代码是 nanochat 的简化单 GPU 实现。核心思想是，你不需要像研究人员通常那样触碰任何 Python 文件。相反，你是在编写 program.

2026-04-06 20:00

autoresearch harness-engineering ai-agent andrej-karpathy llm-training gpt val-bpb muon adamw uv

2026年4月4日星期六

Andrej Karpathy：大语言模型构建个人知识库的实践指南

LLM Knowledge Bases

最近我发现一个非常实用的方法：利用大语言模型（LLM）为各类感兴趣的研究方向搭建个人知识库。这样一来，我近期消耗的模型令牌中，用于处理代码的占比大幅减少，更多被用于处理知识（以 Markdown 文件和图片形式存储）。最新的大语言模型在这方面表现十分出色。具体做法如下：

数据导入

我先将各类源文件（文章、论文、代码仓库、数据集、图片等）归档到 raw/ 目录下，再通过大语言模型逐步“编译”生成一份知识库，这份知识库本质就是按目录结构组织的一系列 .md 文件。知识库会包含 raw/ 目录下所有数据的摘要、反向链接，还会将数据按概念分类、撰写对应词条并完成相互关联。为把网页文章转为 .md 文件，我习惯使用 Obsidian 网页剪藏插件，同时通过快捷键将相关图片批量下载到本地，方便大语言模型直接调用。

集成开发环境

我把 Obsidian 当作前端 IDE，既能查看原始数据、编译后的知识库，也能查看衍生的可视化内容。需要重点说明的是：整个知识库的内容撰写与维护均由大语言模型完成，我几乎不直接手动修改。我还试用过多款 Obsidian 插件，以其他形式渲染和查看数据（比如用 Marp 制作幻灯片）。

问答交互真正有意思的是，当知识库规模足够大时（比如我近期的研究知识库已有约 100 篇词条、40 万字），就可以向大语言模型智能体提出各类复杂问题

2026-04-04 10:00

andrej-karpathy llm knowledge-base obsidian markdown wiki rag personal-knowledge-management second-brain 知识库

2026年2月22日星期日

氛围编程 vs 智能体工程

Andrej Karpathy：氛围编程（vibe coding）

我称之为“氛围编程”（vibe coding）——这是一种全新的编程方式：你完全沉浸在感觉中，拥抱指数级的效率提升，甚至忘掉代码本身的存在。

这之所以成为可能，是因为大语言模型（比如配合 Sonnet 使用的 Cursor Composer）正变得过于强大。而且，我直接通过 SuperWhisper 和 Composer 语音对话，几乎连键盘都不碰。我会提一些极度偷懒的要求，比如“把侧边栏的间距缩减一半”，因为我根本懒得去代码里找位置。我永远点“全部接受”（Accept All），再也不看代码比对（diffs）了。遇到报错信息，我直接原样粘贴回去，一句话都不解释，通常这样就能修好。

代码库的增长速度超出了我以往的理解能力，如果真要搞懂，我得花好长一段时间去通读。有时大模型修不好某个 Bug，我就绕过去，或者要求进行随机改动，直到 Bug 消失。对于那些周末折腾的练手项目来说，这种方式还算凑合，但也确实挺离谱的。

我正在开发一个项目或 Web 应用，但这感觉并不像在编程——我只是观察、动嘴、运行、粘贴，然后它居然大部分时间都能跑通。

Andrej Karpathy：智能体工程（agentic engineering）

很多人转发这条推文，以此纪念“氛围编程”（vibe coding）诞生一周年。简单回顾一下：

2026-02-22 10:00

vibe-coding agentic-engineering andrej-karpathy ai-agents prompt-engineering code-review testing software-engineering llm 智能体工程

2026年2月21日星期六

引用

Andrej Karpathy 谈论「Claws」

安德烈·卡帕西（Andrej Karpathy）发布了一篇微型散文（推文），提到自己买了一台 Mac Mini（“Apple Store 的店员告诉我这东西卖得像热饼一样快，大家都很困惑”），用来折腾 Claws：

我对直接运行 OpenClaw 确实还有点怀疑……但我非常喜欢这个概念。我认为，就像 LLM 智能体（LLM agents）是建立在 LLM 之上的新层级一样，Claws 现已成为建立在 LLM 智能体之上的全新层级。它将编排、调度、上下文、工具调用以及某种持久性提升到了一个新的水平。环顾四周，既然这种高层级的理念已经很明确，许多更小型的 Claws 已经开始涌现。例如，粗略浏览一下，NanoClaw 看起来非常有趣，它的核心引擎只有大约 4000 行代码（它既能装进我的脑子里，也能装进 AI 智能体的“脑子”里，因此感觉可控、可审计且灵活），并且默认在容器中运行所有内容。…… 总之，还有很多其他的例子——比如 nanobot、zeroclaw、ironclaw、picoclaw（这些前缀真让人发笑）。…… 目前我还不能 100% 确定我最终的配置会是什么样子，但 Claws 绝对是 AI 技术栈中一个令人兴奋的全新层级。

安德烈对新鲜术语有着极强的敏锐度（比如之前他提出的 “氛围编码 / vibe coding” 和 “智能体工程 / agentic engineeri

Andrej Karpathy

2026-02-21 12:00

ai generative-ai llms ai-agents claws openclaw nanoclaw agentic-engineering andrej-karpathy simon-willison

2026年1月31日星期六

引用

发表于 Twitter/X 的推文（关于 GPT-2 训练成本下降）

最初在 2019 年，OpenAI 使用 32 块 TPU v3 芯片训练了 168 小时（7 天），当时每块 TPU v3 每小时 8 美元，总成本约为 4.3 万美元。它达到了 0.256525 的 CORE 分数，这是 DCLM 论文中提出的一个综合指标，涵盖了 ARC/MMLU 等 22 项评测。

随着最近合并到 nanochat 的多项改进（其中许多来自 modded-nanogpt 仓库），我现在可以在单个 8XH100 节点上用 3.04 小时（约 73 美元）达到更高的 CORE 分数。这意味着在 7 年内成本降低了 600 倍，也就是说，训练 GPT-2 的成本大约每年下降 2.5 倍。来源: Simon Willison 的网络日志

Andrej Karpathy

2026-01-31 12:00

ai openai andrej-karpathy generative-ai llms gpt-2

2025年12月19日星期五

引用

发表于《2025 LLM Year in Review》

2025 年，基于可验证奖励的强化学习（RLVR）脱颖而出，成为这一时期事实上的新重要阶段。通过在多个环境中利用自动可验证的奖励来训练大语言模型（例如数学/代码谜题），大语言模型会自发地发展出对人类来说看起来像「推理」的策略——它们学会将问题解决分解为中间计算，并学会多种来回探索的策略以弄清楚事物（参见 DeepSeek R1 论文中的例子）。来源: Simon Willison 的网络日志

Andrej Karpathy

2025-12-19 12:00

definitions ai andrej-karpathy generative-ai llms llm-reasoning deepseek

2025年11月16日星期日

引用

发表于 X/Twitter 的推文（关于 AI 与可验证性）

凭借现在的人工智能，我们能够编写以前根本无法手工编写的新程序。我们通过指定目标（例如分类准确率、奖励函数）来做到这一点，并通过梯度下降搜索程序空间，以找到在该目标上表现良好的神经网络。

Karpathy 引用了他的「Software 2.0」博客文章。他指出，「可验证性」是人工智能优化中最具预测性的特征——如果一项任务是可验证的，那么它就可以直接或通过强化学习进行优化。而人工智能「练习」的环境必须满足三个要求：可重置、高效、可奖励。来源: Simon Willison 的网络日志

Andrej Karpathy

2025-11-16 12:00

ai andrej-karpathy generative-ai llms ai-agents

2025年6月22日星期日

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革，将其分为软件1.0（传统手工编码）、软件2.0（基于神经网络权重训练）和软件3.0（通过自然语言提示编程大型语言模型）。演讲者将大型语言模型（LLMs）比作新型操作系统和基础设施，指出它们既具备公用事业的性质（按量付费、集中式），也展现出类似芯片制造厂和操作系统的特征，且目前仍处于早期阶段（类似于1960年代的计算）。进一步探讨了LLMs的认知特性（如广博知识、幻觉、记忆局限），并强调了开发部分自主应用的重要性，这些应用能让人类通过图形用户界面和自主性滑块有效监督AI。最后，演讲者提出，随着自然语言编程的兴起，人人皆可编程，并呼吁开发者为智能体优化数字基础设施和文档，预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来。

Software is changing. (again)

Map of GitHub

Map of GitHub 是一个创新的数据可视化项目，旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建，通过复杂的算法和可视化技术，将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现，帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。

Software 2.0

Software 3.0

Part 1: 如何思考 LLM

LLM 具有公用事业的特性

2025-06-22 08:00

andrej-karpathy software-3.0 software-2.0 llm agent natural-language-programming vibe-coding autonomous-application 人工智能软件开发

2023年5月30日星期二

State of GPT - Andrej Karpathy

介绍

Learn about the training pipeline of GPT assistants like ChatGPT, from tokenization to pretraining, supervised finetuning, and Reinforcement Learning from Human Feedback (RLHF). Dive deeper into practical techniques and mental models for the effective use of these models, including prompting strategies, finetuning, the rapidly growing ecosystem of tools, and their future extensions.

了解 ChatGPT 等 GPT 助手的训练管道，从标记化到预训练、监督微调和人类反馈强化学习 (RLHF)。深入研究有效使用这些模型的实用技术和心智模型，包括提示策略、微调、快速增长的工具生态系统及其未来的扩展。

2023-05-30 08:00

llm gpt fine-tuning andrej-karpathy tokenization machine-learning deep-learning generative-ai ai chatgpt

13 篇文章带有标签 “andrej-karpathy”

2026年7月4日 星期六

2026年6月9日 星期二

2026年5月10日 星期日

2026年4月7日 星期二

2026年4月6日 星期一

2026年4月4日 星期六

2026年2月22日 星期日

2026年2月21日 星期六

2026年1月31日 星期六

2025年12月19日 星期五

2025年11月16日 星期日

2025年6月22日 星期日

2023年5月30日 星期二

2026年7月4日星期六

2026年6月9日星期二

2026年5月10日星期日

2026年4月7日星期二

2026年4月6日星期一

2026年4月4日星期六

2026年2月22日星期日

2026年2月21日星期六

2026年1月31日星期六

2025年12月19日星期五

2025年11月16日星期日

2025年6月22日星期日

2023年5月30日星期二