OpenAI:强化学习超越代码
OpenAI 首席科学家 Jakub Pachocki 谈持续学习炒作、代码之外的 RL 以及未来对齐方向。
核心观点
OpenAI 的研究领导层押注代码生成之外的强化学习将解锁 AI 能力的下一次飞跃,同时对持续学习的声明保持谨慎。
关键洞察
1. 规模投资的回报
从早期实验到 GPT-4,OpenAI 的突破性进展来自于在常规智慧表明回报递减时加倍投入规模:
- 对 transformer 架构的押注
- 用更多计算训练更大模型的承诺
- 愿意追求看似投机的方向
2. 持续学习的现实
Pachocki 对持续学习持谨慎态度:
- 承认围绕从每次交互中学习的模型的炒作
- 警告现实更加微妙
- 当前方法在保留现有能力的同时纳入新信息方面面临根本性挑战
- 灾难性遗忘问题尚未在大规模上解决
- 对突破性的持续学习系统的声明应持怀疑态度,直到严格评估证明真正进展
3. 强化学习的更广阔应用
RL 在代码生成中的成功仅仅是个开始:
- 科学推理
- 复杂规划
- 多步骤问题解决
关键洞见:代码提供了理想的训练场,因为正确性可验证,但类似的验证机制可以为其他领域构建。
4. 对齐与安全
- 能力开发和安全研究之间的紧张关系是真实但可管理的
- OpenAI 在理解模型行为、开发评估框架和构建遏制策略方面投入了大量资源
- 未来的挑战是在模型变得更强大、部署场景更复杂时保持这种平衡
2026-04-20 更新:Ako Paioki(OpenAI Chief Scientist)深度访谈
来源:Unsupervised Learning Ep 84 — AI 简报 2026-04-20
Continual Learning 是核心目标,不是旁支
Ako Paioki 明确表示 continual learning 是 OpenAI 正在构建的"那件大事"("really the thing"),而非被忽视的问题。当前模型预训练后基本停止学习,真正的智能系统需要持续适应新环境、新任务和新信息。
关键挑战:
- 灾难性遗忘(catastrophic forgetting):新学习覆盖旧知识
- 如何在不重新训练整个模型的情况下更新知识
- 评估 continual learning 的 benchmark 本身就很难设计
RL Beyond Code 的探索方向
Ako 确认 RL 在代码之外的成功需要可验证的 reward signal:
- AI for Science:科学研究有可验证结果,是验证 continual learning 和 RL 方法的重要试验场
- Long-horizon tasks:需要多步骤、长时间才能完成的任务
- Messy environments:真实世界的混乱环境,不像代码那样结构化
Alignment 的长期挑战:Values Generalization
对齐的长期挑战不在于当下,而在于模型在全新环境中的价值观泛化——当模型遇到训练时从未见过的情况时,它会回退到什么价值观?
Long-running Agents 的可靠性
Ako 讨论了使长期运行 agent 可靠工作所需的研究:
- 更好的 error recovery(错误恢复)机制
- 理解何时该停止、何时该寻求帮助
- 建立对模型能力边界的准确认知
与行业观点的关系
- AI Capability Gap:Karpathy 指出普通用户与专业开发者的 AI 认知差距
- Continual Learning:Agent 持续学习三层框架
- Anthropic Mythos:另一前沿实验室的安全研究路径
Sources
- AI Briefing/2026-04-11
- AI Builders Digest/2026-04-11
- Podcast: https://www.youtube.com/@RedpointAI
- AI Briefing/2026-04-20 — Unsupervised Learning Ep 84 深度解读