LLM Wiki Pattern — Karpathy

来源：Andrej Karpathy，2026-04

核心洞察

不要再把 LLM 当作文档的搜索引擎，要让它们成为不知疲倦的知识工程师。

传统的 RAG：每次提问，LLM 都在从头发现知识，没有积累。

LLM Wiki：知识被编译一次之后，就持续保鲜，而不是每次查询都重新推导。

三层架构

1. 原始资料层（raw/）

文章、论文、图片、数据集
只读，LLM 只看不改

2. Wiki 层（wiki/）

LLM 生成的 Markdown 文件
摘要、实体页、概念页、对比分析、综述
LLM 全权维护，你只负责阅读

3. Schema 层（CLAUDE.md）

告诉 LLM Wiki 怎么组织、遵循什么规范
把 LLM 从通用聊天机器人变成专业 Wiki 维护者的关键

三个核心操作

Ingest（灌入）

新资料丢进 raw/，LLM：

读完后讨论要点
写摘要页
更新索引
更新所有相关实体页和概念页

一份资料可能触发 10-15 个页面更新

Query（提问）

向 Wiki 提问，LLM：

搜索相关页面
综合出带引用的回答
可以是 Markdown、表格、幻灯片、图表

关键：好的回答可以被归档回 Wiki，变成新页面

Lint（健康检查）

LLM 自动检查：

不一致的数据
知识空白（用 web search 填补）
新的连接和文章建议

为什么有效

方面	RAG	LLM Wiki
知识积累	无，每次都从头检索	有，持续更新的 wiki
cross-references	每次重新计算	已经存在
矛盾检测	无	已标记
合成质量	取决于单次检索	反映所有已读内容

关键成功因素

来自 claude-code/pawelhuryn-claude-decision-engine：

Knowledge architecture — INDEX.md 让 LLM 无需指向就能找到正确文件
Decision journal — LLM 写回，每次会话后更新模板、假设、性能数据
Quality gate — 硬规则覆盖默认值，如"当证据与直觉冲突，信任证据"

Counterpoints & Gaps

缓存命中率问题：wiki 页面是动态选择的，cache hit rate 会显著下降（Yuchen Jin 的观察）
维护出处和时效性的困难（Chat Data 的评论）
"活百科"感觉像第二份全职工作（Mia 的评论）

实践案例与社区应用

第二大脑的三个核心文件夹

来自社区实践，构建真正的Living System：

Identity（你是谁）

SOUL.md — 核心身份文档

Aspirations（你想成为谁）

GOALS.md — 目标
HABITS.md — 习惯
12 FAVORITE PROBLEMS.md — 12个最爱问题

Live Logs（实时记忆记录）

DECISIONS LOG.md — 决策日志
LEARNINGS LOG.md — 学习日志
EMOTIONS LOG.md — 情绪日志

AGENTS.md — 解释所有文档，指导 AI 如何使用和自动更新文档

当 AI 深入理解「你是谁、你想成为谁、你的工作、你的核心问题、你的决策、你的感受」后，就不再只是第二大脑，而是一个活生生的系统——能发现你的限制性信念，作为教练帮你突破心理障碍。

Obsidian + Codex 实战案例

微博用户分享的五天构建经验：

规模：

3800+ 笔记，2000+ 原始 raw 文件
800+ 正式知识条目
整合 3 条主线：论文研究、跨域知识、工作项目

工作流结构： Inbox → Projects / Areas / Resources / Archive → AI Workspace → Worklog

实际效果：与 Codex 讨论论文构思时，AI 能串联之前所有相关工作细节（审稿修改、数据集等），仿佛和一个比你自己还清楚先前工作的同行讨论。新产出内容直接写成 Obsidian 笔记放入 inbox，定期让大模型自动整理归档。

关键洞察：双向链接 + Wiki 编译 > 文件目录分类存储（本质还是圈地让大模型扫）或完全编译为黑盒向量化。白盒 + 本地文件 + 云同步，大模型能用，人自己也能用，而且好用。

变体与补充视角

简化版个人工作流

来自 Shann Holmberg 的分享（2026-04-12）：

一种个人知识管理工作流程，通过结构化的 inbox + 自动化处理 + 可检索输出，构建可搜索、可关联的个人知识库。

核心流程 (4步法)

Inbox (raw/)
- 功能: anything inbox，降低记录 friction
- 输入: clips, tweets, articles, ideas, papers, notes
- 原则: 不筛选、不分类、先丢进去
自动化处理
- 分类: 自动识别内容类型和主题
- 标签: 提取关键词和概念
- 摘要: 生成结构化摘要
- 关联: 链接相关内容
知识整合
- 去重: 合并重复或相似内容
- 验证: 交叉验证信息来源
- 完善: 补充上下文和元数据
可检索输出
- 搜索: 全文检索能力
- 关联: 自动推荐相关内容
- 导航: 主题地图和路径

技术实现（简单版本）

raw/
  ├── tweets/
  ├── articles/
  ├── notes/
  └── clips/

processed/
  ├── by-date/
  ├── by-topic/
  └── by-source/

关键原则

降低摩擦 — 记录应该像说话一样自然，不要为分类而中断思考，相信后续处理流程
渐进式整理 — 先收集，后整理，允许暂时的混乱，定期回顾和提纯
可行动性 — 知识应该能被快速检索，关联带来新洞察，输出驱动输入质量

使用场景

研究人员 — 文献收集和整理，交叉引用和发现，写作素材库
创业者 — 市场观察，竞品分析，灵感捕捉
工程师 — 技术调研，解决方案库，故障排查记录

Karpathy 三层的架构

raw/: 原始输入，不做筛选
witness/: 结构化和验证
wiki/: 最终知识库

Andy Matuschak 的 Evergreen Notes

原子化笔记
概念导向
双向链接

工具推荐

轻量级

Obsidian + 文件夹结构
Apple Notes + 标签
Notion + 数据库

重量级

自建知识图谱
向量数据库 + RAG
专门化的知识管理工具

关联

claude-code/overview — Claude Code 实现
harness-engineering/overview — LLM Wiki 是 Harness Engineering 的一种应用
claude-code/pawelhuryn-claude-decision-engine — CLAUDE.md 作为 decision engine
claude-code/claude-obsidian-integration — Claude + Obsidian 完整集成教程

Sources

刚刚，Karpathy 开源个人 LLM Wiki
llm-wiki — 原始 gist
Thread by @karpathy
Thread by @kloss_xyz
Thread by @Yuchenj_UW
LLM wiki：karpathy 公开构建个人本地知识库详细方法「超强提示词」
be personal — 第二大脑三个核心文件夹（Identity/Aspirations/Live Logs）
llm wiki use case — Obsidian + Codex 实战案例
2026-04-10 adward28 - Portable Agents
2026-04-10 Caspar B - Superpowers Skill Pack
Shann Holmberg 原始推文