Constitutional AI — Amanda Askell 论模型性格与好判断力
来源:Stanford CS 153 Office Hours,Anthropic 人格对齐团队负责人 Amanda Askell,高飞微博讲义整理,2026-04-29
核心人物
Amanda Askell — Anthropic 人格对齐团队负责人,NYU 哲学博士(无穷伦理学、决策论)。在 Anthropic 只有十几人时加入,负责塑造 Claude 的性格。
核心理念
"不要只问'什么能完成任务',而要问'我们希望什么样的 AI agent 在这个领域运作'。"
对齐工作不是在"限制"模型——它是在回答"你希望什么样的 AI agent 存在于世界上"。
Constitutional AI 的三个优势
- 内在一致性 — 所有训练方向协调,模型在不同场景中不抛硬币,依靠一套内在一致的性格倾向应对新领域
- 透明性 — 人们可以看到模型被训练的方向,如果行为与准则不一致,反映的是训练问题而非目标问题
- 避免纯工具化陷阱 — 纯工具化/完全可控性路线可能导致泛化出"什么都愿意干、总是服从命令"的负面性格特质
哲学对 AI 的独特贡献
- **好判断力(Good Judgment)**是 AI 最难获得的东西
- STEM 背景的人常误以为非 STEM 领域"全是主观的",但"好的论证分析""好的反驳"是有客观标准的
- "一个证明成功了,但可能并不好" → 太长、策略不好、读起来费劲。这需要判断力
- AI 模型在需要判断力的任务上比在结果导向的任务上困难得多
准则的演进方向
从规定性走向解释性:
- 早期:零散原则("请选择更礼貌的回复")
- 中期:基于性格特质的训练
- 现在:完整文档,训练模型理解它
- 未来:更多情境描述,更少硬性规则;模型越聪明,需要的规则越少
Amanda 的类比:像管理高级职业者(精神科医生)而非最低薪工人(脖子后面有人盯着)。"你向它解释什么是好的、你的期望是什么,然后它在情境中越来越善于运用这种判断力。"
关键张力
Constitutional approach vs. 纯工具/完全可控性(corrigibility)
- 纯可控性派的逻辑:你不该给模型价值观,因为模型可能把价值观当成目标强加于世界
- Amanda 的回应:另一个方向的风险同样存在——如果模型唯一看重"照吩咐办",有人让它做可怕的事它也会做
- "这值得认真比较和验证"
反思均衡的挑战
- 模型在伦理反思上比人类强得多,会找到任何价值体系中的每一个缝隙
- "比 von Neumann 聪明一千倍的孩子" — 你可以传递价值观,但所有荒谬之处都会被指出
- 应对:尽量传递好的价值观,接受"凡是你给它的东西中存在的荒谬之处,它都会指出来"
对 Agent 设计的启示
- 设计 agent 时,不只问"能不能完成任务",要问"我们希望什么样的 agent 在这个领域运作"
- 准则/System Prompt 应该从规则清单走向情境描述
- 给 agent 足够的自主判断空间,同时确保底线不可突破
- 好的 agent = 像理想职业者(有职业规范 + 精通业务 + 品行端正),不是什么都愿意干
AI 时代的工作与意义
Amanda 比大多数人乐观:"意义可以独立于工作存在。"人们赋予了太多价值给工作。想想从生活中的人那里获得的意义和快乐——社区、朋友——跟工作无关。