Back/Candidates

Constitutional AI — Amanda Askell 论模型性格与好判断力

Updated 2026-05-04

1 min read

164 words

Constitutional AI — Amanda Askell 论模型性格与好判断力

来源：Stanford CS 153 Office Hours，Anthropic 人格对齐团队负责人 Amanda Askell，高飞微博讲义整理，2026-04-29

核心人物

Amanda Askell — Anthropic 人格对齐团队负责人，NYU 哲学博士（无穷伦理学、决策论）。在 Anthropic 只有十几人时加入，负责塑造 Claude 的性格。

核心理念

"不要只问'什么能完成任务'，而要问'我们希望什么样的 AI agent 在这个领域运作'。"

对齐工作不是在"限制"模型——它是在回答"你希望什么样的 AI agent 存在于世界上"。

Constitutional AI 的三个优势

内在一致性 — 所有训练方向协调，模型在不同场景中不抛硬币，依靠一套内在一致的性格倾向应对新领域
透明性 — 人们可以看到模型被训练的方向，如果行为与准则不一致，反映的是训练问题而非目标问题
避免纯工具化陷阱 — 纯工具化/完全可控性路线可能导致泛化出"什么都愿意干、总是服从命令"的负面性格特质

哲学对 AI 的独特贡献

**好判断力（Good Judgment）**是 AI 最难获得的东西
STEM 背景的人常误以为非 STEM 领域"全是主观的"，但"好的论证分析""好的反驳"是有客观标准的
"一个证明成功了，但可能并不好" → 太长、策略不好、读起来费劲。这需要判断力
AI 模型在需要判断力的任务上比在结果导向的任务上困难得多

准则的演进方向

从规定性走向解释性：

早期：零散原则（"请选择更礼貌的回复"）
中期：基于性格特质的训练
现在：完整文档，训练模型理解它
未来：更多情境描述，更少硬性规则；模型越聪明，需要的规则越少

Amanda 的类比：像管理高级职业者（精神科医生）而非最低薪工人（脖子后面有人盯着）。"你向它解释什么是好的、你的期望是什么，然后它在情境中越来越善于运用这种判断力。"

关键张力

Constitutional approach vs. 纯工具/完全可控性（corrigibility）

纯可控性派的逻辑：你不该给模型价值观，因为模型可能把价值观当成目标强加于世界
Amanda 的回应：另一个方向的风险同样存在——如果模型唯一看重"照吩咐办"，有人让它做可怕的事它也会做
"这值得认真比较和验证"

反思均衡的挑战

模型在伦理反思上比人类强得多，会找到任何价值体系中的每一个缝隙
"比 von Neumann 聪明一千倍的孩子" — 你可以传递价值观，但所有荒谬之处都会被指出
应对：尽量传递好的价值观，接受"凡是你给它的东西中存在的荒谬之处，它都会指出来"

对 Agent 设计的启示

设计 agent 时，不只问"能不能完成任务"，要问"我们希望什么样的 agent 在这个领域运作"
准则/System Prompt 应该从规则清单走向情境描述
给 agent 足够的自主判断空间，同时确保底线不可突破
好的 agent = 像理想职业者（有职业规范 + 精通业务 + 品行端正），不是什么都愿意干

AI 时代的工作与意义

Amanda 比大多数人乐观："意义可以独立于工作存在。"人们赋予了太多价值给工作。想想从生活中的人那里获得的意义和快乐——社区、朋友——跟工作无关。

关联

Sources

Synthesized from 1 source

2026-04-29 高飞 — CS 153 Amanda Askell 讲义Primary source for this page.Whole pagehighbody

Evolution

1 event

2026-04-29absorbed
Derived from source material
This page is currently synthesized from 1 source.
From 2026-04-29 高飞 — CS 153 Amanda Askell 讲义To Constitutional AI — Amanda Askell 论模型性格与好判断力
Sources: raw/social-triage/2026-04-29 CS153 Amanda Askell Constitutional AI.md