Human Sample Baseline — 人类样本作为 AI 创作的基准线
核心概念:在让 AI 承担创作或生产任务之前,团队必须先产出人类版本的作品样本。这个人类样本不是练习,而是基准线(baseline)——它定义了"好"的标准,使后续的 AI 优化有参照物,使团队共识有锚定点,使 prompt 设计有翻译来源。
来源:诗梳风 EP20 — 用 AI 生产内容的复盘, 2026-06-03
What it is
诗梳风团队(汉洋、可达、重轻)在为建筑 3D 模型写介绍的过程中发现:当他们先让可达手写 5 篇建筑介绍,再用这些人类样本去衡量和训练 AI 产出时,效率远高于直接让 AI 生成 10 个选项再挑选。
关键机制:
- 没有基准线,AI 只能比你看不上的东西。如果团队没有先定义"好"的标准,AI 生成的结果只能与维基百科、博物馆导览牌等平庸参照比较。
- 人类样本是团队共识的载体。汉洋、可达和重轻通过两周密集讨论"这 5 篇手写介绍到底好在哪里",才磨出了对"隽永、有纵深感、不车轱辘话"的共同理解。这个共识无法通过"选 A 还是选 B"产生。
- Prompt 设计是翻译工作。可达的"百科全书 prompt"之所以有效,不是因为他擅长写 prompt,而是因为他已经知道自己是怎么写建筑介绍的——他只是把自己的工作流程翻译成了机器可执行的语言。
Why it matters
AI 时代的创作误区之一是跳过"人类样本"阶段,直接进入"AI 生成 → 人工挑选"模式。诗梳风的经验表明这会导致三个问题:
- 标准模糊:每个人心中的"好"不同,合到一起后 AI 产出只能满足最低公约数。
- 无法迭代:没有基准线,改进方向不明确——"再试一次"只是重新掷骰子。
- 团队撕裂:没有共同见过、讨论过、确认过的人类样本,协作会退化为个人偏好的博弈。
Key points
1. 团队共识是磨出来的,不是选出来的
诗梳风团队在三里屯封闭开发前,先用一两周时间密集讨论手写样本。这个过程不是"投票选出最好的",而是反复追问"为什么这段好""如果换一种写法会失去什么"。最终形成的共识——追求隽永、避免户口本式记录、让文字回应而非综述——成为了后续所有 AI 工作流的前置条件。
2. 写作风格可以工程化
可达的写作习惯(先讲动人细节、再展开历史背景、最后留余味)原本被视为个人天赋。但通过逐篇拆解和讨论,团队将这些直觉转化为可执行的判断标准。这个过程把"玄学"变成了可讨论、可迭代、可教给 AI 的工程规范。
3. AI 是镜子,不是机械降神
诗梳风团队从未怀疑过 AI"能不能写"——他们从头到尾的挑战都是"人是怎么写的"。AI 的作用不是凭空创造好内容,而是照见人类创作者自己已经具备但尚未显式化的判断力。真正好的 prompt 不是技巧堆砌,而是把创作者的判断力翻译成机器语言。
4. 保持人类创作的手感
可达坚持所有署名作品必须手写,AI 仅用于团队项目生产。这不是对 AI 的抗拒,而是保护作为创作者的人格独立性。这种"手感"的持续操练,反而使他为团队设计的 AI 流程更具价值——因为他始终知道"真人会怎么做"。
Evidence across sources
| Source | Key Claim | Relevance |
|---|---|---|
| 诗梳风 EP20 | 手写样本成为后续所有 AI 优化的基准线;团队通过讨论手写稿磨出共识 | 首次系统阐述人类样本概念在 AI 内容生产中的前置必要性 |
Open questions
- 单人创作者没有团队讨论,如何独自建立有效的人类样本?
- 当 AI 能力持续提升,人类样本的"锚定价值"是否会递减?
- 对于非创作类任务(如数据分析、代码生成),"人类样本"的概念是否同样适用?
Prompts for witness
- 回顾你最近用 AI 辅助完成的一个项目:如果删除所有 AI 产出,只保留你自己做的第一版,那个第一版能清晰表达你想要的标准吗?
- 你团队中是否有一个"可达"——他的个人风格被默认为标杆?这种默认是有效的锚定,还是限制了多样性?
- 如果你必须在未来一个月内完全不用 AI、全部手写,你最想保住的是哪一项创作能力?
Related
- writing/writing-with-ai — AI 辅助写作的五阶段工作流
- writing/ai-writing-as-sculpture — AI 写作作为雕塑:扩大材料块,人类负责雕刻判断
- mental-models/creativity-and-knowledge — 创造力与知识的哲学框架
- harness-engineering/overview — Harness Engineering 总览