LLM Wiki Pattern — Karpathy
来源:Andrej Karpathy,2026-04
核心洞察
不要再把 LLM 当作文档的搜索引擎,要让它们成为不知疲倦的知识工程师。
传统的 RAG:每次提问,LLM 都在从头发现知识,没有积累。
LLM Wiki:知识被编译一次之后,就持续保鲜,而不是每次查询都重新推导。
三层架构
1. 原始资料层(raw/)
- 文章、论文、图片、数据集
- 只读,LLM 只看不改
2. Wiki 层(wiki/)
- LLM 生成的 Markdown 文件
- 摘要、实体页、概念页、对比分析、综述
- LLM 全权维护,你只负责阅读
3. Schema 层(CLAUDE.md)
- 告诉 LLM Wiki 怎么组织、遵循什么规范
- 把 LLM 从通用聊天机器人变成专业 Wiki 维护者的关键
三个核心操作
Ingest(灌入)
新资料丢进 raw/,LLM:
- 读完后讨论要点
- 写摘要页
- 更新索引
- 更新所有相关实体页和概念页
一份资料可能触发 10-15 个页面更新
Query(提问)
向 Wiki 提问,LLM:
- 搜索相关页面
- 综合出带引用的回答
- 可以是 Markdown、表格、幻灯片、图表
关键:好的回答可以被归档回 Wiki,变成新页面
Lint(健康检查)
LLM 自动检查:
- 不一致的数据
- 知识空白(用 web search 填补)
- 新的连接和文章建议
为什么有效
| 方面 | RAG | LLM Wiki |
|---|---|---|
| 知识积累 | 无,每次都从头检索 | 有,持续更新的 wiki |
| cross-references | 每次重新计算 | 已经存在 |
| 矛盾检测 | 无 | 已标记 |
| 合成质量 | 取决于单次检索 | 反映所有已读内容 |
关键成功因素
来自 claude-code/pawelhuryn-claude-decision-engine:
- Knowledge architecture — INDEX.md 让 LLM 无需指向就能找到正确文件
- Decision journal — LLM 写回,每次会话后更新模板、假设、性能数据
- Quality gate — 硬规则覆盖默认值,如"当证据与直觉冲突,信任证据"
Counterpoints & Gaps
- 缓存命中率问题:wiki 页面是动态选择的,cache hit rate 会显著下降(Yuchen Jin 的观察)
- 维护出处和时效性的困难(Chat Data 的评论)
- "活百科"感觉像第二份全职工作(Mia 的评论)
实践案例与社区应用
第二大脑的三个核心文件夹
来自社区实践,构建真正的Living System:
Identity(你是谁)
SOUL.md— 核心身份文档
Aspirations(你想成为谁)
GOALS.md— 目标HABITS.md— 习惯12 FAVORITE PROBLEMS.md— 12个最爱问题
Live Logs(实时记忆记录)
DECISIONS LOG.md— 决策日志LEARNINGS LOG.md— 学习日志EMOTIONS LOG.md— 情绪日志
AGENTS.md — 解释所有文档,指导 AI 如何使用和自动更新文档
当 AI 深入理解「你是谁、你想成为谁、你的工作、你的核心问题、你的决策、你的感受」后,就不再只是第二大脑,而是一个活生生的系统——能发现你的限制性信念,作为教练帮你突破心理障碍。
Obsidian + Codex 实战案例
微博用户分享的五天构建经验:
规模:
- 3800+ 笔记,2000+ 原始 raw 文件
- 800+ 正式知识条目
- 整合 3 条主线:论文研究、跨域知识、工作项目
工作流结构:
Inbox → Projects / Areas / Resources / Archive → AI Workspace → Worklog
实际效果: 与 Codex 讨论论文构思时,AI 能串联之前所有相关工作细节(审稿修改、数据集等),仿佛和一个比你自己还清楚先前工作的同行讨论。新产出内容直接写成 Obsidian 笔记放入 inbox,定期让大模型自动整理归档。
关键洞察: 双向链接 + Wiki 编译 > 文件目录分类存储(本质还是圈地让大模型扫)或完全编译为黑盒向量化。白盒 + 本地文件 + 云同步,大模型能用,人自己也能用,而且好用。
变体与补充视角
简化版个人工作流
来自 Shann Holmberg 的分享(2026-04-12):
一种个人知识管理工作流程,通过结构化的 inbox + 自动化处理 + 可检索输出,构建可搜索、可关联的个人知识库。
核心流程 (4步法)
-
Inbox (raw/)
- 功能: anything inbox,降低记录 friction
- 输入: clips, tweets, articles, ideas, papers, notes
- 原则: 不筛选、不分类、先丢进去
-
自动化处理
- 分类: 自动识别内容类型和主题
- 标签: 提取关键词和概念
- 摘要: 生成结构化摘要
- 关联: 链接相关内容
-
知识整合
- 去重: 合并重复或相似内容
- 验证: 交叉验证信息来源
- 完善: 补充上下文和元数据
-
可检索输出
- 搜索: 全文检索能力
- 关联: 自动推荐相关内容
- 导航: 主题地图和路径
技术实现(简单版本)
raw/
├── tweets/
├── articles/
├── notes/
└── clips/
processed/
├── by-date/
├── by-topic/
└── by-source/
关键原则
- 降低摩擦 — 记录应该像说话一样自然,不要为分类而中断思考,相信后续处理流程
- 渐进式整理 — 先收集,后整理,允许暂时的混乱,定期回顾和提纯
- 可行动性 — 知识应该能被快速检索,关联带来新洞察,输出驱动输入质量
使用场景
- 研究人员 — 文献收集和整理,交叉引用和发现,写作素材库
- 创业者 — 市场观察,竞品分析,灵感捕捉
- 工程师 — 技术调研,解决方案库,故障排查记录
Karpathy 三层的架构
- raw/: 原始输入,不做筛选
- witness/: 结构化和验证
- wiki/: 最终知识库
Andy Matuschak 的 Evergreen Notes
- 原子化笔记
- 概念导向
- 双向链接
工具推荐
轻量级
- Obsidian + 文件夹结构
- Apple Notes + 标签
- Notion + 数据库
重量级
- 自建知识图谱
- 向量数据库 + RAG
- 专门化的知识管理工具
关联
- claude-code/overview — Claude Code 实现
- harness-engineering/overview — LLM Wiki 是 Harness Engineering 的一种应用
- claude-code/pawelhuryn-claude-decision-engine — CLAUDE.md 作为 decision engine
- claude-code/claude-obsidian-integration — Claude + Obsidian 完整集成教程
Sources
- 刚刚,Karpathy 开源个人 LLM Wiki
- llm-wiki — 原始 gist
- Thread by @karpathy
- Thread by @kloss_xyz
- Thread by @Yuchenj_UW
- LLM wiki:karpathy 公开构建个人本地知识库详细方法「超强提示词」
- be personal — 第二大脑三个核心文件夹(Identity/Aspirations/Live Logs)
- llm wiki use case — Obsidian + Codex 实战案例
- 2026-04-10 adward28 - Portable Agents
- 2026-04-10 Caspar B - Superpowers Skill Pack
- Shann Holmberg 原始推文