Back/claude code

LLM Wiki Pattern — Karpathy

Updated 2026-04-20
3 min read
579 words

LLM Wiki Pattern — Karpathy

来源:Andrej Karpathy,2026-04

核心洞察

不要再把 LLM 当作文档的搜索引擎,要让它们成为不知疲倦的知识工程师。

传统的 RAG:每次提问,LLM 都在从头发现知识,没有积累。

LLM Wiki:知识被编译一次之后,就持续保鲜,而不是每次查询都重新推导。

三层架构

1. 原始资料层(raw/)

  • 文章、论文、图片、数据集
  • 只读,LLM 只看不改

2. Wiki 层(wiki/)

  • LLM 生成的 Markdown 文件
  • 摘要、实体页、概念页、对比分析、综述
  • LLM 全权维护,你只负责阅读

3. Schema 层(CLAUDE.md)

  • 告诉 LLM Wiki 怎么组织、遵循什么规范
  • 把 LLM 从通用聊天机器人变成专业 Wiki 维护者的关键

三个核心操作

Ingest(灌入)

新资料丢进 raw/,LLM:

  • 读完后讨论要点
  • 写摘要页
  • 更新索引
  • 更新所有相关实体页和概念页

一份资料可能触发 10-15 个页面更新

Query(提问)

向 Wiki 提问,LLM:

  • 搜索相关页面
  • 综合出带引用的回答
  • 可以是 Markdown、表格、幻灯片、图表

关键:好的回答可以被归档回 Wiki,变成新页面

Lint(健康检查)

LLM 自动检查:

  • 不一致的数据
  • 知识空白(用 web search 填补)
  • 新的连接和文章建议

为什么有效

方面 RAG LLM Wiki
知识积累 无,每次都从头检索 有,持续更新的 wiki
cross-references 每次重新计算 已经存在
矛盾检测 已标记
合成质量 取决于单次检索 反映所有已读内容

关键成功因素

来自 claude-code/pawelhuryn-claude-decision-engine

  1. Knowledge architecture — INDEX.md 让 LLM 无需指向就能找到正确文件
  2. Decision journal — LLM 写回,每次会话后更新模板、假设、性能数据
  3. Quality gate — 硬规则覆盖默认值,如"当证据与直觉冲突,信任证据"

Counterpoints & Gaps

  • 缓存命中率问题:wiki 页面是动态选择的,cache hit rate 会显著下降(Yuchen Jin 的观察)
  • 维护出处和时效性的困难(Chat Data 的评论)
  • "活百科"感觉像第二份全职工作(Mia 的评论)

实践案例与社区应用

第二大脑的三个核心文件夹

来自社区实践,构建真正的Living System

Identity(你是谁)

  • SOUL.md — 核心身份文档

Aspirations(你想成为谁)

  • GOALS.md — 目标
  • HABITS.md — 习惯
  • 12 FAVORITE PROBLEMS.md — 12个最爱问题

Live Logs(实时记忆记录)

  • DECISIONS LOG.md — 决策日志
  • LEARNINGS LOG.md — 学习日志
  • EMOTIONS LOG.md — 情绪日志

AGENTS.md — 解释所有文档,指导 AI 如何使用和自动更新文档

当 AI 深入理解「你是谁、你想成为谁、你的工作、你的核心问题、你的决策、你的感受」后,就不再只是第二大脑,而是一个活生生的系统——能发现你的限制性信念,作为教练帮你突破心理障碍。

Obsidian + Codex 实战案例

微博用户分享的五天构建经验:

规模

  • 3800+ 笔记,2000+ 原始 raw 文件
  • 800+ 正式知识条目
  • 整合 3 条主线:论文研究、跨域知识、工作项目

工作流结构Inbox → Projects / Areas / Resources / Archive → AI Workspace → Worklog

实际效果: 与 Codex 讨论论文构思时,AI 能串联之前所有相关工作细节(审稿修改、数据集等),仿佛和一个比你自己还清楚先前工作的同行讨论。新产出内容直接写成 Obsidian 笔记放入 inbox,定期让大模型自动整理归档。

关键洞察: 双向链接 + Wiki 编译 > 文件目录分类存储(本质还是圈地让大模型扫)或完全编译为黑盒向量化。白盒 + 本地文件 + 云同步,大模型能用,人自己也能用,而且好用。

变体与补充视角

简化版个人工作流

来自 Shann Holmberg 的分享(2026-04-12):

一种个人知识管理工作流程,通过结构化的 inbox + 自动化处理 + 可检索输出,构建可搜索、可关联的个人知识库。

核心流程 (4步法)

  1. Inbox (raw/)

    • 功能: anything inbox,降低记录 friction
    • 输入: clips, tweets, articles, ideas, papers, notes
    • 原则: 不筛选、不分类、先丢进去
  2. 自动化处理

    • 分类: 自动识别内容类型和主题
    • 标签: 提取关键词和概念
    • 摘要: 生成结构化摘要
    • 关联: 链接相关内容
  3. 知识整合

    • 去重: 合并重复或相似内容
    • 验证: 交叉验证信息来源
    • 完善: 补充上下文和元数据
  4. 可检索输出

    • 搜索: 全文检索能力
    • 关联: 自动推荐相关内容
    • 导航: 主题地图和路径

技术实现(简单版本)

raw/
  ├── tweets/
  ├── articles/
  ├── notes/
  └── clips/

processed/
  ├── by-date/
  ├── by-topic/
  └── by-source/

关键原则

  • 降低摩擦 — 记录应该像说话一样自然,不要为分类而中断思考,相信后续处理流程
  • 渐进式整理 — 先收集,后整理,允许暂时的混乱,定期回顾和提纯
  • 可行动性 — 知识应该能被快速检索,关联带来新洞察,输出驱动输入质量

使用场景

  • 研究人员 — 文献收集和整理,交叉引用和发现,写作素材库
  • 创业者 — 市场观察,竞品分析,灵感捕捉
  • 工程师 — 技术调研,解决方案库,故障排查记录

Karpathy 三层的架构

  • raw/: 原始输入,不做筛选
  • witness/: 结构化和验证
  • wiki/: 最终知识库

Andy Matuschak 的 Evergreen Notes

  • 原子化笔记
  • 概念导向
  • 双向链接

工具推荐

轻量级

  • Obsidian + 文件夹结构
  • Apple Notes + 标签
  • Notion + 数据库

重量级

  • 自建知识图谱
  • 向量数据库 + RAG
  • 专门化的知识管理工具

关联

Sources

Linked from