LLM Wiki:基于大语言模型的个人知识库构建模式

阅读

使用大语言模型(LLM)构建个人知识库的模式。

这是一份概念文件,设计用于复制粘贴到你自己的 LLM 智能体中(例如 OpenAI Codex、Claude Code、OpenCode / Pi 等)。它的目标是传达高层级的理念,而具体细节将由你的智能体与你协作构建。

核心理念

大多数人与 LLM 和文档打交道的体验看起来像是 RAG:你上传一批文件,LLM 在查询时检索相关片段,然后生成答案。这确实有效,但 LLM 每次都要从零开始重新发现知识,没有任何积累。当你问一个需要综合五份文档的微妙问题时,LLM 必须每次都找到并拼凑相关片段,没有任何东西被沉淀下来。NotebookLM、ChatGPT 文件上传以及大多数 RAG 系统都是这样工作的。

这里的理念不同。与其仅在查询时从原始文档中检索,LLM 增量式地构建并维护一个持久的维基 —— 一个结构化的、相互关联的 Markdown 文件集合,位于你和原始来源之间。当你添加新来源时,LLM 不只是将其索引以备后用。它会阅读来源,提取关键信息,并将其整合到现有维基中 —— 更新实体页面、修订主题摘要、标注新数据与旧主张的矛盾之处、强化或挑战不断演进的综合结论。知识被编译一次,然后保持最新,而不是每次查询都重新推导。

这就是关键区别:维基是一个持久的、复合增长的产物。 交叉引用已经存在,矛盾已经被标记,综合结论已经反映了你阅读过的所有内容。每添加一个来源、每提出一个问题,维基都会变得更加丰富。

你永远不会(或很少)亲自撰写维基 —— LLM 负责撰写和维护所有内容。你负责来源筛选、探索和提出正确的问题。LLM 处理所有繁琐工作 —— 总结、交叉引用、归档和簿记,这些工作让知识库随时间推移真正变得有用。在实践中,我通常一边打开 LLM 智能体,另一边打开 Obsidian。LLM 根据我们的对话进行编辑,我实时浏览结果 —— 跟随链接、查看图谱视图、阅读更新后的页面。Obsidian 是 IDE;LLM 是程序员;维基是代码库。

这适用于许多不同的场景。以下是几个例子:

  • 个人:追踪你自己的目标、健康、心理、自我提升 —— 归档日记条目、文章、播客笔记,并随时间推移构建一个关于你自己的结构化图景。
  • 研究:在数周或数月内深入研究某个主题 —— 阅读论文、文章、报告,并增量式地构建一个带有演进论点的综合维基。
  • 阅读一本书:边读边归档每一章,为角色、主题、情节线索及其关联方式建立页面。到最后,你会拥有一个丰富的伴读维基。想想像托尔金之门这样的粉丝维基 —— 数千个相互关联的页面,涵盖角色、地点、事件、语言,由一群志愿者历经数年构建。你可以在阅读时亲自构建类似的东西,由 LLM 负责所有的交叉引用和维护工作。
  • 商业/团队:由 LLM 维护的内部维基,数据源包括 Slack 线程、会议记录、项目文档、客户通话。可能由人类参与审核更新。维基保持最新,因为 LLM 承担了团队中没人愿意做的维护工作。
  • 竞争分析、尽职调查、旅行规划、课程笔记、爱好深度探索 —— 任何你在随时间积累知识并希望将其组织起来而非零散分布的场景。

架构

共有三个层次:

原始来源 —— 你精心策划的来源文档集合。文章、论文、图片、数据文件。这些是不可变的 —— LLM 从中读取但从不修改。这是你的真相来源。

维基 —— 一个由 LLM 生成的 Markdown 文件目录。摘要、实体页面、概念页面、对比、概览、综合结论。LLM 完全拥有这一层。它创建页面、在新来源到达时更新它们、维护交叉引用并保持一切一致。你阅读它;LLM 撰写它。

模式(Schema) —— 一份文档(例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md),告诉 LLM 维基的结构、约定是什么,以及在摄取来源、回答问题或维护维基时应遵循哪些工作流程。这是关键的配置文件 —— 它让 LLM 成为一个有纪律的维基维护者,而非通用的聊天机器人。你和 LLM 会随时间共同演进这份文档,以摸索出适合你所在领域的最佳实践。

操作

摄取(Ingest)。 你将新来源放入原始集合中,并告诉 LLM 处理它。一个示例流程:LLM 阅读来源,与你讨论关键要点,在维基中撰写摘要页面,更新索引,更新维基中相关的实体和概念页面,并在日志中追加一条记录。单个来源可能会触及 10-15 个维基页面。就我个人而言,我更喜欢一次摄取一个来源并保持参与 —— 我阅读摘要、检查更新,并指导 LLM 该强调什么。但你也可以批量摄取多个来源,减少监督。由你来开发适合自己风格的工作流程,并将其记录在模式中,以供未来会话使用。

查询(Query)。 你针对维基提出问题。LLM 搜索相关页面,阅读它们,并综合出一个带引用的答案。根据问题的不同,答案可以采取不同形式 —— Markdown 页面、对比表格、幻灯片(Marp)、图表(matplotlib)、画布。重要的洞察是:好的答案可以作为新页面归档回维基中。 你要求的一次对比、一项分析、一个你发现的新关联 —— 这些都很宝贵,不应消失在聊天记录中。这样,你的探索就能像摄取的来源一样,在知识库中产生复合增长。

整理(Lint)。 定期让 LLM 对维基进行健康检查。检查内容包括:页面之间的矛盾、已被新来源取代的陈旧主张、没有入站链接的孤立页面、被提及但缺少独立页面的重要概念、缺失的交叉引用、可以通过网络搜索填补的数据空白。LLM 很擅长提出值得调查的新问题和值得寻找的新来源。这能让维基在成长过程中保持健康。

索引与日志

两个特殊文件帮助 LLM(和你)在维基增长时进行导航。它们服务于不同目的:

index.md 是内容导向的。它是维基中所有内容的目录 —— 每个页面都列出链接、一行摘要,以及可选的元数据如日期或来源数量。按类别组织(实体、概念、来源等)。LLM 在每次摄取时更新它。回答查询时,LLM 先阅读索引以找到相关页面,然后深入阅读。在中等规模下(约 100 个来源,数百个页面),这出奇地有效,并且避免了基于嵌入的 RAG 基础设施的需求。

log.md 是按时间顺序的。它是一份仅追加的记录,记录发生了什么以及何时发生 —— 摄取、查询、整理检查。一个有用的技巧:如果每条记录都以一致的前缀开头(例如 ## [2026-04-02] ingest | 文章标题),日志就可以用简单的 Unix 工具解析 —— grep "^## \[" log.md | tail -5 就能给出最近 5 条记录。日志提供了维基演进的时间线,并帮助 LLM 了解最近完成了什么。

可选:CLI 工具

在某个阶段,你可能想构建一些小工具来帮助 LLM 更高效地操作维基。最明显的是一个针对维基页面的搜索引擎 —— 在小规模时索引文件足够用,但随着维基增长,你需要真正的搜索。qmd 是一个不错的选择:它是一个本地 Markdown 文件搜索引擎,具备混合 BM25/向量搜索和 LLM 重排序,全部在本地运行。它既有 CLI(所以 LLM 可以通过 shell 调用它),也有 MCP 服务器(所以 LLM 可以将其作为原生工具使用)。你也可以自己构建更简单的工具 —— 当需求出现时,LLM 可以帮你”氛围编程”(vibe-code)一个简易的搜索脚本。

技巧与窍门

  • Obsidian Web Clipper 是一个浏览器扩展,能将网页文章转换为 Markdown。对于快速将来源收入你的原始集合非常有用。
  • 本地保存图片。 在 Obsidian 设置 → 文件与链接中,将”附件文件夹路径”设为固定目录(例如 raw/assets/)。然后在设置 → 快捷键中搜索”Download”,找到”为当前文件下载附件”并绑定一个快捷键(例如 Ctrl+Shift+D)。剪辑一篇文章后,按下快捷键,所有图片就会下载到本地磁盘。这是可选的但很有用 —— 它让 LLM 可以直接查看和引用图片,而不是依赖可能失效的 URL。注意,LLM 无法一次性原生阅读带有内联图片的 Markdown —— 解决方法是让 LLM 先阅读文本,然后单独查看部分或全部引用的图片以获得额外上下文。这有点笨拙,但足够好用。
  • Obsidian 的图谱视图 是查看维基形状的最佳方式 —— 什么与什么相连、哪些页面是枢纽、哪些是孤立节点。
  • Marp 是一种基于 Markdown 的幻灯片格式。Obsidian 有对应的插件。可用于直接从维基内容生成演示文稿。
  • Dataview 是一个 Obsidian 插件,可以在页面前置元数据上运行查询。如果你的 LLM 为维基页面添加了 YAML 前置元数据(标签、日期、来源数量),Dataview 可以生成动态表格和列表。
  • 维基只是一个 Markdown 文件的 Git 仓库。你免费获得了版本历史、分支和协作能力。

为什么这有效

维护知识库中最乏味的部分不是阅读或思考 —— 而是簿记工作。更新交叉引用、保持摘要最新、标注新数据何时与旧主张矛盾、在数十个页面间保持一致性。人类放弃维基是因为维护负担的增长速度超过了价值。LLM 不会感到无聊,不会忘记更新交叉引用,并且可以一次性触及 15 个文件。维基得以保持维护,因为维护成本几乎为零。

人类的工作是策划来源、指导分析、提出好问题,并思考这一切意味着什么。LLM 的工作是其他所有事情。

这个想法在精神上与范内瓦·布什(Vannevar Bush)的 Memex(1945)相关 —— 一个个人的、精心策划的知识存储库,文档之间有联想轨迹。布什的愿景更接近于此,而非后来的万维网:私密的、主动策划的,文档之间的连接与文档本身一样有价值。他当时没能解决的是”谁来维护”的问题。LLM 解决了这个问题。

附注

本文档有意保持抽象。它描述的是理念,而非具体实现。确切的目录结构、模式约定、页面格式、工具链 —— 所有这些都取决于你的领域、你的偏好以及你选择的 LLM。上面提到的所有内容都是可选且模块化的 —— 选取有用的,忽略不适用的。例如:你的来源可能只有文本,所以你根本不需要处理图片。你的维基可能小到索引文件就足够了,不需要搜索引擎。你可能不关心幻灯片,只想要 Markdown 页面。你可能想要一套完全不同的输出格式。正确的使用方式是将其分享给你的 LLM 智能体,然后共同协作实例化一个适合你需求的版本。这份文档的唯一职责是传达这个模式。你的 LLM 可以搞定其余一切。

相关文章

🤖

智能问答助手

⏳ 初始化...

💡 配置和聊天记录仅保存在本地浏览器中