Forecasts — Overview
Not yet ingested.
Scope
Long-horizon predictions about AI's impact on society, economics, and work. These are bets, not facts — track them as such.
Active Theses
-
AI 裁员潮的逻辑与终点 — 代码是投入,功能是产出,用户付费是成果。AI 让代码投入暴增 5 倍,但收入成果并未同步增长,裁员成为抵消 AI 支出的短期算术。只有当增加的 50% AI 投入能转化为 50% 收入成果时,裁员才不再是必然选择(dotey/Arnav Gupta, 2026-05-11)。
-
Demis Hassabis AGI 框架 — AGI 50/50 还需 1-2 突破,时间线 2030,agent ROI 尚未 justify
-
Jevons 悖论与 AI 工作范围扩张 — AI 效率提升反而扩大总需求,推理端存在物理天花板
METR Time Horizon:Agent 能力曲线预测(2026-05-02)
来源:Addy Osmani — Long-running Agents
METR 的 time horizon 指标(前沿模型以 50% 可靠性完成的任务时长)自 2019 年以来每约 7 个月翻倍。
- TH1.1(2026-01):8 小时以上任务数量翻倍
- 2028 年:前沿 agent 达到 day scale
- 2034 年:前沿 agent 达到 year scale
与 Hassabis 判断的张力:能力曲线乐观,但当前投入产出比尚未 justify。若 Hassabis 正确(持续学习需十年突破),能力曲线可能在某点后遭遇"可用性天花板"。
Kevin Kelly:激进适应性与可抛弃目标(2026-05-04)
来源:Thorsten Ball — Joy & Curiosity #84
Kevin Kelly 论 AI 时代的持续不确定性:
"AI continues to progress, rather than resolving our perplexity, it expands it. For the next 10-15 years we have perpetual, continuous, severe uncertainty."
应对策略:"The most effective response is not to seek impossible stability, but to cultivate radical adaptability and radical optionality. Goals should be considered as disposable hypotheses, constantly ready to be discarded and replaced by better-fitting concepts later on."
这与 Hassabis 对 agent ROI 的谨慎判断形成呼应:不确定性不是临时的过渡期,而是 AI 时代的基本特征。
Jack Clark:AI 自我改进时间线(2026-05-05)
来源:Import AI 455 — Jack Clark(主源)、The Rundown 2026-05-05
Anthropic 联合创始人 Jack Clark 在 Import AI 455 中给出迄今最系统的递归自我改进时间线预测:
- 2028 年底前:AI 系统自主构建后继者的概率 60%+
- 2027 年概率:约 30%(若创造力瓶颈未突破)
- 核心判断:所有自动化今天 AI 系统所需的工程组件都已就位
支撑证据
| 领域 | 基准/数据 | 进展 |
|---|---|---|
| 编码能力 | SWE-Bench | Claude 2 (2%) → Mythos Preview (93.9%),接近饱和 |
| 独立工作时长 | METR time horizon | 2022: 30秒 → 2026: 12小时,年底预计达 100 小时 |
| 科研复现 | CORE-Bench | GPT-4o (21.5%) → Opus 4.5 (95.5%),基准已被"解决" |
| ML 系统构建 | MLE-Bench | o1 (16.9%) → Gemini 3 (64.4%) |
| 内核优化 | 多项研究 | DeepSeek/Meta/华为均用 LLM 自动化 GPU 内核设计 |
| 后训练 | PostTrainBench | AI 达到人类后训练收益的 50%(25-28% vs 人类 51%) |
| 训练优化 | Anthropic CPU 训练任务 | Opus 4 (2.9x) → Mythos Preview (52x),人类基准为 4x |
| 对齐研究 | Anthropic 自动化对齐研究 | AI agent 团队已能提出超越人类基线的技术 |
| 科学前沿 | Erdos 数学问题 | Gemini 在 700 个问题中独立解决 1 个非平凡开放问题 |
关键区分:工程 vs 研究
Jack Clark 区分两种自动化:
- AI 工程自动化:今天已可自动化"绝大部分甚至全部"——编码、测试、数据清洗、实验启动、内核优化等
- AI 研究自动化:尚不确定。需要"创造性"和"异端洞察"来产生范式转变(如 Transformer、MoE)
他的判断:即使 AI 相对缺乏创造力,也能通过自动化" meat and potatoes 工程"推动自身前进,只是速度慢于能产生新颖洞察的情况。
行业目标对齐
| 机构 | 公开目标 |
|---|---|
| OpenAI | 2026 年 9 月前推出"自动化 AI 研究实习生" |
| Anthropic | 发表自动化对齐研究,可行时自动化对齐研究 |
| DeepMind | "automation of alignment research should be done when feasible" |
| Recursive Superintelligence | 融资 $500M,目标自动化 AI 研究 |
| Mirendil | 目标"building systems that excel at AI R&D" |
三大影响
- 对齐必须正确:99.9% 准确的对齐技术,50 代后变为 95.12%,500 代后变为 60.5%
- 生产力倍增器:AI 触及的一切都会获得巨大生产力提升,但算力分配的"Amdahl 定律"会在数字世界与物理世界交界处制造瓶颈
- 资本重、人力轻的经济:越来越多的经济板块被"机器经济"殖民,AI 运营公司相互交易,引发治理和分配问题
与 METR 时间线的张力:
- METR 的 "time horizon" 指标每 7 个月翻倍(渐进能力曲线)
- Jack Clark 的 60% 预测意味着2028 年可能遭遇结构性跃迁——自我改进闭环启动,而非单纯翻倍
- 若准确,Hassabis 的 2030 时间线过于保守;若失败,说明存在尚未识别的创造力瓶颈
社区分歧:Goodside 和 Ryan Greenblatt 等安全研究者质疑"自主构建后继者"的 operationalization 强度——从"微调现有模型"到"从零设计新架构"跨度巨大。
黄仁勋:Agentic AI 计算需求 ×1000 与 Token 经济(2026-05-06)
黄仁勋在米尔肯全球大会上给出迄今最激进的算力需求预测:
- Agentic AI 计算量约为生成式 AI 的 1000 倍:理解→推理→规划→使用工具的完整链条,算力消耗比纯生成式 AI 高出约三个数量级
- Token 利润率极高:OpenAI 和 Anthropic 正在"疯狂争夺产能",AI 原生公司毛利率已转正
- 计算范式迁移:从"检索"(retrieval)转向"生成"(generation),AI 重塑整个计算机行业
- 再工业化投资:芯片厂 + 电脑厂 + AI 工厂三种制造厂将带来数万亿美元投资
关键推断:若 1000 倍计算量预测成立,且使用人数再增长 100 倍,GPU 需求将在两年内经历天文数字级跃升。这与 Jevons 悖论 形成呼应——效率提升反而扩大总需求。
Jack Clark:Y2K 类比、算力税与 AI 监管民主化(2026-05-06)
来源:Jack Clark Channel 4 播客 2026-05-06
Anthropic 联合创始人 Jack Clark 给出多重政策预警,与其此前技术预测形成"能力+治理"双维度判断:
Y2K 类比
AI 风险正处于"千年虫爆发前期"——有证据表明极糟的事可能发生,但提前行动可以避免。Mythos 红队测试就是这一预防逻辑的实例:在攻击者武器化同等能力之前,先用 AI 重写全球关键软件使其更安全。
算力税
将算力类比为石油:基础资源,成倍放大经济影响,集中于少数生产商。主张对 AI 行业征收"算力税"资助被冲击人群的职业转型——"如果经济因为这项技术而繁荣,这就是你必须要做的事"。
民主合法化
AI 行业不应由少数私营巨头做出"充满个人色彩且反复无常的决定",需要监管让公众感到民主合法性。Anthropic 支持加州 SB53(OpenAI、Meta 反对),Jack Clark 称这是"向积极方向的背叛"。
Anthropic 经济指数
建立"经济指数"项目,向全球经济学家公开 AI 对就业影响的早期数据,作为潜在失业的预警系统。目前仅观察到 22-25 岁年轻人职位空缺的轻微早期疲软。
与 forecasts 其他预测的关联:
- Jack Clark 此前预测的 2028 年递归自我改进 60% 概率(见 forecasts/overview#Jack Clark:AI 自我改进时间线)与黄仁勋的 1000 倍计算需求共同指向一个算力饥渴的未来
- 算力税提案若实现,将根本改变 AI 基础设施的成本结构和定价模型
Pax Silica:美国 AI 供应链安全联盟(2026-05-17)
来源:AI Builders Digest 2026-05-17
美国国务院副国务卿 Jacob Helberg 详细介绍 Pax Silica——一个由 14 国组成的经济安全联盟,旨在确保 AI 供应链不受中国影响。
- 首个部署:菲律宾 4000 英亩经济安全区,结合美国普通法与菲律宾工业优势
- 核心逻辑:私营部门主导的合资模式优于政府运营供应链,资本效率更高且可持续
- 覆盖领域:稀土矿产多元化、核能为 AI 基础设施供电、基于枢纽的全球供应链韧性策略
- 对比框架:Helberg 明确将 Pax Silica 与中国的 Belt and Road Initiative 对比,认为后者是政府运营且资本浪费
与 forecasts 其他预测的关联:Pax Silica 代表 AI 竞争从"模型能力"扩展到"供应链安全"和"地缘经济联盟"维度。若 AI 计算需求真如黄仁勋预测增长 1000 倍,控制稀土、芯片制造和能源基础设施将成为与模型研发同等重要的战略层。
黄仁勋:MFU 越低越好与协同设计哲学(2026-05-16)
Jensen Huang 在斯坦福播客中提出与行业主流相反的基础设施观点:
- MFU(Model FLOPs Utilization)应保持较低水平:系统应过度配置以预留脉冲负载余量;真正值得关注的指标是"每瓦智能"(intelligence per watt),而非利用率百分比
- 百万倍性能提升来自协同设计(co-design):NVIDIA 跨 CPU、GPU、网络、交换机乃至存储进行整体优化,十年实现百万倍提升,远超摩尔定律的十年百倍
- 计算能源需求将是今天的 1000 倍:当计算从"偶尔使用"变成"持续生成",能源需求将发生根本性跃迁
- GPU 不应被类比为核武器:全球数十亿人用 GPU 做 CT、供应链、游戏;不应因一个行业受损而限制全球 access
- 开源模型是 AI 安全的基础:无法防御黑箱,也就无法保护黑箱;未来应对超级 AI 的网络安全挑战需要部署数以百万计的轻量 AI 形成集群式防护
关键推断:协同设计哲学暗示 AI 基础设施竞争不是单一组件(芯片、网络、存储)的竞赛,而是全栈整合能力的竞赛。这与 Pax Silica 的供应链安全叙事形成互补——硬件层和地缘层的整合能力与模型层同等重要。
新璐:Agent 进化五阶段与零人公司(2026-05-05)
新璐对 Agent 演进路径的终极预测:
Agent 模型阶段(预计持续 ~3 年)
当前到未来 3 年,Agent 将经历五个进化阶段:
单体 Agent → 蜂群 Agent → Agent 管理 Agent → Agent 发明任务 → 零人公司
零人公司(Zero-Person Company)
- 不是一人公司,是完全由 Agent 组成的公司,对外是黑盒
- 未来投资标的可能不再是人创建的公司,而是 agent
- 这与 一人十亿美元公司 形成递进关系:一人公司之后,是零人公司
三个看好方向
- Harness infra(自己在做)
- Agent 混合组网:Tailscale 不太 Agent-native,需要支持高通量上下文交换的 Agent 原生组网方案
- 低成本个性化微调 + 推理时挂 LoRA:类似 Tinker(OpenAI 前 CEO 做的),训练和推理联合优化,挂 LoRA 多付 5% 成本获得个性化模型