Skip to content
Back/Candidates

Constitutional AI — Amanda Askell 论模型性格与好判断力

View in Graph
Updated 2026-05-04
1 min read
164 words

Constitutional AI — Amanda Askell 论模型性格与好判断力

来源:Stanford CS 153 Office Hours,Anthropic 人格对齐团队负责人 Amanda Askell,高飞微博讲义整理,2026-04-29

核心人物

Amanda Askell — Anthropic 人格对齐团队负责人,NYU 哲学博士(无穷伦理学、决策论)。在 Anthropic 只有十几人时加入,负责塑造 Claude 的性格。

核心理念

"不要只问'什么能完成任务',而要问'我们希望什么样的 AI agent 在这个领域运作'。"

对齐工作不是在"限制"模型——它是在回答"你希望什么样的 AI agent 存在于世界上"。

Constitutional AI 的三个优势

  1. 内在一致性 — 所有训练方向协调,模型在不同场景中不抛硬币,依靠一套内在一致的性格倾向应对新领域
  2. 透明性 — 人们可以看到模型被训练的方向,如果行为与准则不一致,反映的是训练问题而非目标问题
  3. 避免纯工具化陷阱 — 纯工具化/完全可控性路线可能导致泛化出"什么都愿意干、总是服从命令"的负面性格特质

哲学对 AI 的独特贡献

  • **好判断力(Good Judgment)**是 AI 最难获得的东西
  • STEM 背景的人常误以为非 STEM 领域"全是主观的",但"好的论证分析""好的反驳"是有客观标准的
  • "一个证明成功了,但可能并不好" → 太长、策略不好、读起来费劲。这需要判断力
  • AI 模型在需要判断力的任务上比在结果导向的任务上困难得多

准则的演进方向

从规定性走向解释性:

  • 早期:零散原则("请选择更礼貌的回复")
  • 中期:基于性格特质的训练
  • 现在:完整文档,训练模型理解它
  • 未来:更多情境描述,更少硬性规则;模型越聪明,需要的规则越少

Amanda 的类比:像管理高级职业者(精神科医生)而非最低薪工人(脖子后面有人盯着)。"你向它解释什么是好的、你的期望是什么,然后它在情境中越来越善于运用这种判断力。"

关键张力

Constitutional approach vs. 纯工具/完全可控性(corrigibility)

  • 纯可控性派的逻辑:你不该给模型价值观,因为模型可能把价值观当成目标强加于世界
  • Amanda 的回应:另一个方向的风险同样存在——如果模型唯一看重"照吩咐办",有人让它做可怕的事它也会做
  • "这值得认真比较和验证"

反思均衡的挑战

  • 模型在伦理反思上比人类强得多,会找到任何价值体系中的每一个缝隙
  • "比 von Neumann 聪明一千倍的孩子" — 你可以传递价值观,但所有荒谬之处都会被指出
  • 应对:尽量传递好的价值观,接受"凡是你给它的东西中存在的荒谬之处,它都会指出来"

对 Agent 设计的启示

  • 设计 agent 时,不只问"能不能完成任务",要问"我们希望什么样的 agent 在这个领域运作"
  • 准则/System Prompt 应该从规则清单走向情境描述
  • 给 agent 足够的自主判断空间,同时确保底线不可突破
  • 好的 agent = 像理想职业者(有职业规范 + 精通业务 + 品行端正),不是什么都愿意干

AI 时代的工作与意义

Amanda 比大多数人乐观:"意义可以独立于工作存在。"人们赋予了太多价值给工作。想想从生活中的人那里获得的意义和快乐——社区、朋友——跟工作无关。

关联

Sources

Synthesized from 1 source
  • 2026-04-29 高飞 — CS 153 Amanda Askell 讲义Primary source for this page.Whole pagehighbody

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 1 source.

    From 2026-04-29 高飞 — CS 153 Amanda Askell 讲义To Constitutional AI — Amanda Askell 论模型性格与好判断力
    Sources: raw/social-triage/2026-04-29 CS153 Amanda Askell Constitutional AI.md