LLM Wiki：基于大语言模型的个人知识库构建模式

karpathy/llm-wiki.md

使用大语言模型（LLM）构建个人知识库的模式。

这是一份概念文件，设计用于复制粘贴到你自己的 LLM 智能体中（例如 OpenAI Codex、Claude Code、OpenCode / Pi 等）。它的目标是传达高层级的理念，而具体细节将由你的智能体与你协作构建。

核心理念

大多数人与 LLM 和文档打交道的体验看起来像是 RAG：你上传一批文件，LLM 在查询时检索相关片段，然后生成答案。这确实有效，但 LLM 每次都要从零开始重新发现知识，没有任何积累。当你问一个需要综合五份文档的微妙问题时，LLM 必须每次都找到并拼凑相关片段，没有任何东西被沉淀下来。NotebookLM、ChatGPT 文件上传以及大多数 RAG 系统都是这样工作的。

这里的理念不同。与其仅在查询时从原始文档中检索，LLM 增量式地构建并维护一个持久的维基 —— 一个结构化的、相互关联的 Markdown 文件集合，位于你和原始来源之间。当你添加新来源时，LLM 不只是将其索引以备后用。它会阅读来源，提取关键信息，并将其整合到现有维基中 —— 更新实体页面、修订主题摘要、标注新数据与旧主张的矛盾之处、强化或挑战不断演进的综合结论。知识被编译一次，然后保持最新，而不是每次查询都重新推导。

这就是关键区别：维基是一个持久的、复合增长的产物。 交叉引用已经存在，矛盾已经被标记，综合结论已经反映了你阅读过的所有内容。每添加一个来源、每提出一个问题，维基都会变得更加丰富。

你永远不会（或很少）亲自撰写维基 —— LLM 负责撰写和维护所有内容。你负责来源筛选、探索和提出正确的问题。LLM 处理所有繁琐工作 —— 总结、交叉引用、归档和簿记，这些工作让知识库随时间推移真正变得有用。在实践中，我通常一边打开 LLM 智能体，另一边打开 Obsidian。LLM 根据我们的对话进行编辑，我实时浏览结果 —— 跟随链接、查看图谱视图、阅读更新后的页面。Obsidian 是 IDE；LLM 是程序员；维基是代码库。

这适用于许多不同的场景。以下是几个例子：

个人：追踪你自己的目标、健康、心理、自我提升 —— 归档日记条目、文章、播客笔记，并随时间推移构建一个关于你自己的结构化图景。
研究：在数周或数月内深入研究某个主题 —— 阅读论文、文章、报告，并增量式地构建一个带有演进论点的综合维基。
阅读一本书：边读边归档每一章，为角色、主题、情节线索及其关联方式建立页面。到最后，你会拥有一个丰富的伴读维基。想想像托尔金之门这样的粉丝维基 —— 数千个相互关联的页面，涵盖角色、地点、事件、语言，由一群志愿者历经数年构建。你可以在阅读时亲自构建类似的东西，由 LLM 负责所有的交叉引用和维护工作。
商业/团队：由 LLM 维护的内部维基，数据源包括 Slack 线程、会议记录、项目文档、客户通话。可能由人类参与审核更新。维基保持最新，因为 LLM 承担了团队中没人愿意做的维护工作。
竞争分析、尽职调查、旅行规划、课程笔记、爱好深度探索 —— 任何你在随时间积累知识并希望将其组织起来而非零散分布的场景。

架构

共有三个层次：

原始来源 —— 你精心策划的来源文档集合。文章、论文、图片、数据文件。这些是不可变的 —— LLM 从中读取但从不修改。这是你的真相来源。

维基 —— 一个由 LLM 生成的 Markdown 文件目录。摘要、实体页面、概念页面、对比、概览、综合结论。LLM 完全拥有这一层。它创建页面、在新来源到达时更新它们、维护交叉引用并保持一切一致。你阅读它；LLM 撰写它。

模式（Schema） —— 一份文档（例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md），告诉 LLM 维基的结构、约定是什么，以及在摄取来源、回答问题或维护维基时应遵循哪些工作流程。这是关键的配置文件 —— 它让 LLM 成为一个有纪律的维基维护者，而非通用的聊天机器人。你和 LLM 会随时间共同演进这份文档，以摸索出适合你所在领域的最佳实践。

操作

摄取（Ingest）。 你将新来源放入原始集合中，并告诉 LLM 处理它。一个示例流程：LLM 阅读来源，与你讨论关键要点，在维基中撰写摘要页面，更新索引，更新维基中相关的实体和概念页面，并在日志中追加一条记录。单个来源可能会触及 10-15 个维基页面。就我个人而言，我更喜欢一次摄取一个来源并保持参与 —— 我阅读摘要、检查更新，并指导 LLM 该强调什么。但你也可以批量摄取多个来源，减少监督。由你来开发适合自己风格的工作流程，并将其记录在模式中，以供未来会话使用。

查询（Query）。 你针对维基提出问题。LLM 搜索相关页面，阅读它们，并综合出一个带引用的答案。根据问题的不同，答案可以采取不同形式 —— Markdown 页面、对比表格、幻灯片（Marp）、图表（matplotlib）、画布。重要的洞察是：好的答案可以作为新页面归档回维基中。 你要求的一次对比、一项分析、一个你发现的新关联 —— 这些都很宝贵，不应消失在聊天记录中。这样，你的探索就能像摄取的来源一样，在知识库中产生复合增长。

整理（Lint）。 定期让 LLM 对维基进行健康检查。检查内容包括：页面之间的矛盾、已被新来源取代的陈旧主张、没有入站链接的孤立页面、被提及但缺少独立页面的重要概念、缺失的交叉引用、可以通过网络搜索填补的数据空白。LLM 很擅长提出值得调查的新问题和值得寻找的新来源。这能让维基在成长过程中保持健康。

索引与日志

两个特殊文件帮助 LLM（和你）在维基增长时进行导航。它们服务于不同目的：

index.md 是内容导向的。它是维基中所有内容的目录 —— 每个页面都列出链接、一行摘要，以及可选的元数据如日期或来源数量。按类别组织（实体、概念、来源等）。LLM 在每次摄取时更新它。回答查询时，LLM 先阅读索引以找到相关页面，然后深入阅读。在中等规模下（约 100 个来源，数百个页面），这出奇地有效，并且避免了基于嵌入的 RAG 基础设施的需求。

log.md 是按时间顺序的。它是一份仅追加的记录，记录发生了什么以及何时发生 —— 摄取、查询、整理检查。一个有用的技巧：如果每条记录都以一致的前缀开头（例如 ## [2026-04-02] ingest | 文章标题），日志就可以用简单的 Unix 工具解析 —— grep "^## \[" log.md | tail -5 就能给出最近 5 条记录。日志提供了维基演进的时间线，并帮助 LLM 了解最近完成了什么。

可选：CLI 工具

在某个阶段，你可能想构建一些小工具来帮助 LLM 更高效地操作维基。最明显的是一个针对维基页面的搜索引擎 —— 在小规模时索引文件足够用，但随着维基增长，你需要真正的搜索。qmd 是一个不错的选择：它是一个本地 Markdown 文件搜索引擎，具备混合 BM25/向量搜索和 LLM 重排序，全部在本地运行。它既有 CLI（所以 LLM 可以通过 shell 调用它），也有 MCP 服务器（所以 LLM 可以将其作为原生工具使用）。你也可以自己构建更简单的工具 —— 当需求出现时，LLM 可以帮你”氛围编程”（vibe-code）一个简易的搜索脚本。

技巧与窍门

Obsidian Web Clipper 是一个浏览器扩展，能将网页文章转换为 Markdown。对于快速将来源收入你的原始集合非常有用。
本地保存图片。 在 Obsidian 设置 → 文件与链接中，将”附件文件夹路径”设为固定目录（例如 raw/assets/）。然后在设置 → 快捷键中搜索”Download”，找到”为当前文件下载附件”并绑定一个快捷键（例如 Ctrl+Shift+D）。剪辑一篇文章后，按下快捷键，所有图片就会下载到本地磁盘。这是可选的但很有用 —— 它让 LLM 可以直接查看和引用图片，而不是依赖可能失效的 URL。注意，LLM 无法一次性原生阅读带有内联图片的 Markdown —— 解决方法是让 LLM 先阅读文本，然后单独查看部分或全部引用的图片以获得额外上下文。这有点笨拙，但足够好用。
Obsidian 的图谱视图 是查看维基形状的最佳方式 —— 什么与什么相连、哪些页面是枢纽、哪些是孤立节点。
Marp 是一种基于 Markdown 的幻灯片格式。Obsidian 有对应的插件。可用于直接从维基内容生成演示文稿。
Dataview 是一个 Obsidian 插件，可以在页面前置元数据上运行查询。如果你的 LLM 为维基页面添加了 YAML 前置元数据（标签、日期、来源数量），Dataview 可以生成动态表格和列表。
维基只是一个 Markdown 文件的 Git 仓库。你免费获得了版本历史、分支和协作能力。

为什么这有效

维护知识库中最乏味的部分不是阅读或思考 —— 而是簿记工作。更新交叉引用、保持摘要最新、标注新数据何时与旧主张矛盾、在数十个页面间保持一致性。人类放弃维基是因为维护负担的增长速度超过了价值。LLM 不会感到无聊，不会忘记更新交叉引用，并且可以一次性触及 15 个文件。维基得以保持维护，因为维护成本几乎为零。

人类的工作是策划来源、指导分析、提出好问题，并思考这一切意味着什么。LLM 的工作是其他所有事情。

这个想法在精神上与范内瓦·布什（Vannevar Bush）的 Memex（1945）相关 —— 一个个人的、精心策划的知识存储库，文档之间有联想轨迹。布什的愿景更接近于此，而非后来的万维网：私密的、主动策划的，文档之间的连接与文档本身一样有价值。他当时没能解决的是”谁来维护”的问题。LLM 解决了这个问题。

附注

本文档有意保持抽象。它描述的是理念，而非具体实现。确切的目录结构、模式约定、页面格式、工具链 —— 所有这些都取决于你的领域、你的偏好以及你选择的 LLM。上面提到的所有内容都是可选且模块化的 —— 选取有用的，忽略不适用的。例如：你的来源可能只有文本，所以你根本不需要处理图片。你的维基可能小到索引文件就足够了，不需要搜索引擎。你可能不关心幻灯片，只想要 Markdown 页面。你可能想要一套完全不同的输出格式。正确的使用方式是将其分享给你的 LLM 智能体，然后共同协作实例化一个适合你需求的版本。这份文档的唯一职责是传达这个模式。你的 LLM 可以搞定其余一切。

LLM Wiki：基于大语言模型的个人知识库构建模式

核心理念

架构

操作

索引与日志

可选：CLI 工具

技巧与窍门

为什么这有效

附注

相关文章

使用 Claude Code：HTML 超乎寻常的妙用

Hermes 与 OpenClaw —— 该选哪个智能体？

Open-source DeepResearch – Freeing our search agents

Anthropic: 构建有效的AI智能体