OpenAI：强化学习超越代码

OpenAI 首席科学家 Jakub Pachocki 谈持续学习炒作、代码之外的 RL 以及未来对齐方向。

核心观点

OpenAI 的研究领导层押注代码生成之外的强化学习将解锁 AI 能力的下一次飞跃，同时对持续学习的声明保持谨慎。

关键洞察

1. 规模投资的回报

从早期实验到 GPT-4，OpenAI 的突破性进展来自于在常规智慧表明回报递减时加倍投入规模：

对 transformer 架构的押注
用更多计算训练更大模型的承诺
愿意追求看似投机的方向

2. 持续学习的现实

Pachocki 对持续学习持谨慎态度：

承认围绕从每次交互中学习的模型的炒作
警告现实更加微妙
当前方法在保留现有能力的同时纳入新信息方面面临根本性挑战
灾难性遗忘问题尚未在大规模上解决
对突破性的持续学习系统的声明应持怀疑态度，直到严格评估证明真正进展

3. 强化学习的更广阔应用

RL 在代码生成中的成功仅仅是个开始：

科学推理
复杂规划
多步骤问题解决

关键洞见：代码提供了理想的训练场，因为正确性可验证，但类似的验证机制可以为其他领域构建。

4. 对齐与安全

能力开发和安全研究之间的紧张关系是真实但可管理的
OpenAI 在理解模型行为、开发评估框架和构建遏制策略方面投入了大量资源
未来的挑战是在模型变得更强大、部署场景更复杂时保持这种平衡

2026-04-20 更新：Ako Paioki（OpenAI Chief Scientist）深度访谈

来源：Unsupervised Learning Ep 84 — AI 简报 2026-04-20

Continual Learning 是核心目标，不是旁支

Ako Paioki 明确表示 continual learning 是 OpenAI 正在构建的"那件大事"（"really the thing"），而非被忽视的问题。当前模型预训练后基本停止学习，真正的智能系统需要持续适应新环境、新任务和新信息。

关键挑战：

灾难性遗忘（catastrophic forgetting）：新学习覆盖旧知识
如何在不重新训练整个模型的情况下更新知识
评估 continual learning 的 benchmark 本身就很难设计

RL Beyond Code 的探索方向

Ako 确认 RL 在代码之外的成功需要可验证的 reward signal：

AI for Science：科学研究有可验证结果，是验证 continual learning 和 RL 方法的重要试验场
Long-horizon tasks：需要多步骤、长时间才能完成的任务
Messy environments：真实世界的混乱环境，不像代码那样结构化

Alignment 的长期挑战：Values Generalization

对齐的长期挑战不在于当下，而在于模型在全新环境中的价值观泛化——当模型遇到训练时从未见过的情况时，它会回退到什么价值观？

Long-running Agents 的可靠性

Ako 讨论了使长期运行 agent 可靠工作所需的研究：

更好的 error recovery（错误恢复）机制
理解何时该停止、何时该寻求帮助
建立对模型能力边界的准确认知

与行业观点的关系

AI Capability Gap：Karpathy 指出普通用户与专业开发者的 AI 认知差距
Continual Learning：Agent 持续学习三层框架
Anthropic Mythos：另一前沿实验室的安全研究路径

Sources

AI Briefing/2026-04-11
AI Builders Digest/2026-04-11
Podcast: https://www.youtube.com/@RedpointAI
AI Briefing/2026-04-20 — Unsupervised Learning Ep 84 深度解读

OpenAI RL Beyond Code