AI Ecosystem — Overview
AI Ecosystem 追踪模型公司、开源模型、算力经济、AI 基础设施、安全治理和科学应用的结构性变化。本页是 MOC,用来组织长期问题和入口;具体新闻、发布、融资和访谈应留在 raw、reference 页或对应实体页。
Core Questions
- 前沿模型竞争的核心变量是模型能力、算力、电力、数据、分发,还是系统集成?
- OpenAI、Anthropic、Google、Meta、DeepSeek 等模型公司的身份是否正在从“模型实验室”转向“基础设施公司 / 平台公司 / 设备公司”?
- 开源模型、本地模型和垂直模型会在哪些场景削弱闭源前沿模型的优势?
- Agent 平台、安全治理、数据授权和推理经济会如何重塑 AI 生态的价值分配?
- AI for science、autonomous labs 和物理世界应用是短期产品线,还是下一轮平台迁移?
Key Concepts
- Frontier model landscape:GPT-5.5 Evaluation、DeepSeek-V4、Google Gemma 4、Meta Muse Spark、Grok 4.3 是模型竞争入口。Box AI Complex Work Eval 测试 Fable 5 vs Opus 4.8:Fable 5 在复杂知识工作中的准确性和一致性方面相比 Opus 4.8 实现了重大飞跃。最大提升出现在媒体娱乐(78% vs 61%)、科技(81% vs 73%)、金融服务(89% vs 83%)和医疗(66% vs 60%)领域。具体案例包括法律并购尽职调查(100% vs 78%)、临床放射学审计(63% vs 41%)和 SaaS 功能估值(100% vs 74%)。Fable 在复杂推理中不走捷径,多步计算正确,且跨运行一致性更高(levie, 2026-06-13)。Kimi 2.7 Coder 发布:作为编程/Agent 专项模型,在 kimi-code-bench-v2 上提升 11%,与 K2.6 架构相同但经后训练优化,现已支持 Hermes Agent(karminski3, 2026-06-13)。Lukasz Kaiser(Transformer 论文合著者)的评估:当前具备推理和工具访问能力的 Transformer 已经能完成惊人任务,但推理 alone 是否足以实现真正的泛化仍不清楚;可能存在另一种能更好泛化的方法。Kaiser 认为 Anthropic 之所以能领先,关键在于专注押注代码,而 OpenAI 则被 ChatGPT 分散了注意力。他还谈到开源与闭源的差距:虽然闭源实验室目前领先,但格局可能迅速变化。展望未来,他对世界模型、改进的推理能力以及在必要时超越 Transformer 的架构感到兴奋。对于应用公司来说,护城河在于工作流整合和数据飞轮,而不仅仅是模型访问(Unsupervised Learning Podcast, 2026-06-07)。Yann LeCun 离开 Meta 创立 Ami Labs,专注 world models 和 JEPA(Joint Embedding Predictive Architecture)架构,主张 LLM 并非通往人类级智能的路径。JEPA 通过预测行动后果并基于优化进行规划,而非自回归 token 预测;LeCun 认为 world models 将在 2027 年初被公认为正确方向(Redpoint AI Podcast, 2026-05-16)。OpenAI 宣布弃用其微调 API,标志着行业主流(约 80%)正在从微调转向超长 prompt 和上下文工程;Cursor 和 Cognition 反而增加了开源模型的 RLFT(强化学习微调)使用量,显示微调并未彻底消失,而是向特定高价值场景收缩(2026-05-13)。GLM-5.2 全面开源(2026-06-13):智谱发布其迄今为止最强大的开源模型 GLM-5.2,支持真正可用的 1M 上下文窗口,作为对外部封锁和限制前沿 AI 访问的回应。该模型也是智谱最强国内编码模型的主引擎,API 将于下周上线。定价极具攻击性,所有 GLM Coding Plan 用户(Lite / Pro / Max)均可使用。这代表中国开源模型在上下文长度和编码能力上正在快速追赶前沿闭源模型(jietang, 2026-06-13)。
- Inference economics and compute wall:AI Inference Rationing、LLM Inference Economics、H100 Price Surge、Baseten Inference Cloud 记录算力和推理成本约束。IREN 与 NVIDIA 的 34 亿美元基础设施合作:IREN 与 NVIDIA 宣布战略合作伙伴关系,加速部署高达 5GW 的下一代 AI 基础设施,并签署 34 亿美元合同为 NVIDIA 内部 AI 和研究工作负载提供云基础设施服务。这代表 AI 基础设施军备竞赛的进一步升级,电力和算力部署成为与模型能力同等重要的竞争变量(2026-05-15)。Cerebras 正式上市:美国 AI 芯片制造商 Cerebras 开盘仅数小时后股价翻了一倍多,成为今年以来最大的 IPO,首日市值达约 600 亿美元。这是大芯片推理基础设施叙事的资本市场验证, specialist AI 硬件正在获得与 NVIDIA 不同的市场认可(AINews, 2026-05-16)。OpenAI CFO 谈算力窗口 2028–2032:Sarah Friar 表示 OpenAI 已看到 2026–2027 年需求持续紧张,并正在规划 2028–2032 年的产能。供给瓶颈从 GPU 扩展到电力、土地、数据中心、内存、网络、冷却和并网审批,千兆瓦级 AI 数据中心正在变成能源、地产和工业项目的复合体(2026-06-07)。Google 与 SpaceX 签订每月 9.2 亿美元 GPU 租赁协议:据报道 Google 以每月 9.2 亿美元向 SpaceX 租用约 11 万块 NVIDIA GPU,折合每小时约 11.50 美元/GPU,处于 GB200 级现货价格的高端。加上估计另有约 9.5 万块 GPU 被租用,Colossus 2 约 40% 产能似乎已签约(2026-06-07)。
- Model company as platform:OpenAI Codex Superapp、Google Workspace CLI、Mistral Workflows、Hermes Agent 显示模型公司正在向 workflow 和 agent 平台扩张。OpenAI Robotics 正式成立:Sam Altman 宣布 OpenAI 将世界模拟研究项目升级为 OpenAI Robotics,由 Aditya Ramesh 领导,目标是让 AI 在物理世界中帮助人类。短期聚焦支持技术工人建设基础设施,长期愿景是人人拥有个人机器人。采用机器人硬件与 ML 研究协同设计模式,正在招聘全栈硬件、运维、系统和 ML 工程师(2026-06-01)。Hermes Agent Windows 原生支持正式发布:Nous Research 宣布 Hermes Agent 的 Windows 原生支持已结束 beta,可直接通过 PowerShell 安装,获得完整功能(2026-06-01)。GPT-Realtime-2 / Translate / Whisper 把语音也纳入 agent runtime,具体 harness 影响见 Realtime Voice Agent Systems。Anthropic 与 SpaceX 达成合作,全面使用 SpaceX 的 Colossus 1 超大规模 GPU 数据中心;直接结果是所有付费计划(Pro / Team / Enterprise)的 Claude 使用限额翻倍(2026-05-11)。OpenRouter 推出 Pareto Code,一个免费路由层,可自动选择满足用户设定质量门槛的最便宜编程 AI,价格随新模型上线动态调整(2026-05-11)。OpenRouter 新增模型缓存命中率实时数据:OpenRouter 在模型定价页新增实时缓存命中率和历史流量数据,帮助开发者在选择模型时把缓存效率纳入成本决策(2026-06-07)。Spotify 加入 AI Agent:Spotify App 新增 AI Agent,可通过语音指令思考并生成歌单,代表消费级应用将 agent 从搜索增强推进到主动执行(2026-06-07)。OpenAI 成立 Deployment Company,由 19 家领先投资公司/咨询公司/系统集成商组成,帮助企业将前沿 AI 部署到生产环境;同时收购 Tomoro,获得 150 名 Forward Deployed Engineers 和 Deployment Specialists(2026-05-11)。这标志着模型公司从"提供 API"向"提供端到端部署服务"的跃迁。Google Cloud Gemini Enterprise Agent Platform:Google Cloud Next 宣布 Agent Development Kit(ADK)GA,支持通过 GitHub 和 Vertex AI 工作流构建、部署和治理企业级 Agent 工作流(2026-05-12)。Anthropic 财务与算力分配:CFO Krishna Rao 在首个播客中披露,他两年前加入时公司年营收约 2.5 亿美元,如今 run rate 已达 300 亿美元;他负责筹集约 750 亿美元并管理 Trainium、TPU 与 GPU 的采购分配。核心议题包括平台 vs 应用战略、前沿智能的回报持续上升,以及 Anthropic 内部财务团队如何使用 Claude(2026-05-13)。Codex 免费试用攻势:Sam Altman 宣布 Codex 推出 30 天免费试用计划,针对有意从其他工具切换的公司提供两个月免费 Codex 使用额度,直接争夺 Claude Code 和企业用户(2026-05-13)。新加坡建设国家级 MCP 网关:新加坡 AI Govtech 负责人估计两年内国内将有 13 亿个 agent,并正在建设国家级 MCP(Model Context Protocol)网关,代表 agent 基础设施从企业层上升到国家层(swyx, 2026-05-16)。
- Model labs becoming agent labs:Model Labs Becoming Agent Labs 汇总 2026-05 下旬的共同信号:OpenAI、Google、Anthropic、DeepSeek、AI21 等公司不再只发布模型,而是在同时发布 coding agent、托管 agent runtime、沙盒、工作流入口、agent API 和分发面。生态竞争正在从 benchmark 排名扩展为“模型 + harness + runtime + 产品入口”的组合竞争。
Microsoft 发布 MAI 模型家族,正式进入第一方前沿模型竞赛:Microsoft Build 2026 推出 7 款 MAI 模型,旗舰 MAI-Thinking-1 采用 35B 激活参数 MoE 架构(总参约 1T),在 AIME 2025 达 97%、SWE-Bench Pro 达 53%,盲测人类偏好超过 Sonnet 4.6。微软强调零蒸馏、零合成数据、干净数据血缘,同时发布 MAIA 200 自研芯片、Windows 代理运行时、GitHub Copilot 桌面应用和 Web IQ 搜索 API。109 页技术报告因数据管线、Scaling Ladder、MFU 和基础设施指标的透明度获得研究社区高度评价。这标志着微软从“云托管+应用层”向“第一方前沿模型实验室+全栈代理平台”的战略跃迁,也使前沿模型竞争从五强(OpenAI/Anthropic/Google/Meta/DeepSeek)扩展为六强(AINews, 2026-06-03)。
Anthropic 与盖茨基金会合作:Anthropic 承诺投入 2 亿美元(资助 + Claude 额度 + 技术支持),与 Gates Foundation 合作覆盖全球健康、生命科学、教育、农业和经济项目。这是模型公司从商业产品向社会基础设施延伸的信号,也是 AI 能力向发展中国家和公共服务领域渗透的案例(2026-05-14)。
Ramp AI Index:Anthropic 首次在企业付费采用率上超越 OpenAI:金融科技公司 Ramp 追踪 5 万家美国企业支出数据,显示 Anthropic 企业采用率在 4 月达到 34.4%,首次超过 OpenAI 的 32.3%。Anthropic 过去一年内企业采用率激增 4 倍,Claude Code 是主要推动力。这解释了 OpenAI 近期密集推出 Codex 等反击产品的战略紧迫性(2026-05-14)。
ChatGPT 个人财务管理上线:OpenAI 向美国 Pro 用户开放 ChatGPT 绑定银行账户、投资、信用卡的功能,通过 Plaid 接入 12000+ 金融机构,提供统一资产 dashboard 和基于真实数据的问答。默认使用 GPT-5.5 Thinking,Pro 用户可切到 GPT-5.5 Pro;OpenAI 找 50 多位金融专业人士评测,5.5 Pro 得分 82.5。与 Intuit 合作是核心信号:OpenAI 想让 ChatGPT 从"给建议"变成"帮你办事"(2026-05-16)。
ChatGPT 与 Codex 双向融合:OpenAI 工程负责人 thsottiaux 透露团队正将 ChatGPT 能力带入 Codex,同时将 Codex 的 agent 能力(如 /review、自动修复)带回 ChatGPT。这代表 OpenAI 产品线从"多个独立工具"向"统一智能体平台"演进,未来两个产品的边界将逐渐消失(2026-05-16)。Codex 里程碑预告:thsottiaux 暗示 Codex 即将公布一个重要里程碑——仪表盘上的某个数字"让我很开心",暗示 adoption 或性能指标将有重大突破(thsottiaux, 2026-05-30)。
Codex 登陆移动端:OpenAI 在 ChatGPT iOS 应用中以预览版推出 Codex 移动端支持,面向所有订阅计划开放。用户可通过手机访问实时线程、代码变更、审批请求、插件并启动新任务,Codex 继续在笔记本或远程主机上运行。OpenAI 表示使用了"安全中继层",不会将用户计算机暴露于开放互联网。这标志着 Codex 从实验性工具变成跨设备生产力基础设施(The Rundown, 2026-05-15)。
OpenAI 与 Apple 关系恶化:据彭博社报道,OpenAI 正在考虑对 Apple 采取法律行动,已聘请律师事务所探索选项,可能包括发送违约通知。双方在 2024 年 Apple Intelligence 首发期间达成合作,但用户更偏爱独立 ChatGPT 应用;Apple 计划在 iOS 27 中向其他 AI 提供商开放 Siri,并据称对 OpenAI 挖角其硬件团队"极为愤怒"(The Rundown, 2026-05-15)。
Anthropic 代理积分政策引发开发者反弹:Anthropic 宣布从 6 月 15 日起将 Agent SDK 和
claude -p拆分为独立月度积分池,Pro 用户每月 $20、Max 5x $100、Max 20x $200,积分不可累积。此举逆转了 4 月对第三方代理的禁令,但取消了此前让订阅计划具有显著算力价值的补贴,引发 Theo 等数百名重度用户公开取消订阅(The Rundown, 2026-05-15)。 Claude for Small Business:Anthropic 将 Claude 集成到小企业日常工具中,一键启动 15 个预设技能,覆盖 QuickBooks、PayPal、HubSpot、Canva、DocuSign 等,功能包括工资核算、现金流预测、催款、营销素材、合同签署、新员工入职。收费克制(不额外加钱),但要求工作流必须人为审批启动。值得注意的是,Dario Amodei 曾警告单个 SaaS 厂商可能迅速失去市值,但此次集成名单中恰恰包含他点名的公司(2026-05-13)。 Agent 供应商的竞争维度转移——从"销售智能"到"销售有界执行环境":OpenAI 公开 Codex Windows Sandbox 技术实现,通过本地用户、防火墙规则、ACL、写限制 token、DPAPI 和辅助可执行文件的安全组合,实现编码 agent 的本地文件系统/工具访问。Perplexity 也描述了硬件隔离沙箱架构,包括 VPC 级分离、短寿命代理 token、agent 操作前扫描外部内容,以及加密和自动删除。Aravind Srinivas 将其定位为 Perplexity 成为企业知识/研究平台的基础。这标志着 agent 供应商的竞争不再局限于模型能力,而是扩展到安全、隔离、可审计的运行时环境(2026-05-14)。 - Safety and security governance:Claude Mythos、Mythos Security Audit、Project Glasswing、CrabTrap、npm axios Supply Chain Attack 是安全治理入口。Anthropic Institute (TAI) 正式成立,将 AI 自我改进纳入正式研究议程,提议建立实验室-政府热线和"消防演习"机制。OpenAI 董事会成员 Zico Kolter 将 AI 风险划分为四类:模型错误、有害使用、社会/心理影响、失控风险;并指出安全性不会随模型规模自动提升,鲁棒性需要显式训练和多层次防御(2026-05-08)。Claude Mythos Preview 帮助 Firefox 团队在 2026-04 修复的安全漏洞数量超过过去 15 个月总和,是 AI Agent 增强现实世界安全工作流的案例。Alex Albert 披露 Mythos Preview 早期快照在 METR 的 80% 成功率基准上时间跨度超次优模型 2 倍(2026-05-09)。OpenAI 发文分析 Chain of Thought 监控是防止 agent 不对齐的关键防御层,承认已发布模型存在少量意外 CoT 评分问题(2026-05-09)。Google AI 零日漏洞:Google 披露 AI 驱动的零日漏洞利用——攻击者通过恶意钓鱼页面控制工程师工作电脑,使用 Gemini AI 自动提取密码、生成代码绕过安全控制,并用 Google Translate 规避审查规则。Google 确认问题已修复,但漏洞影响范围和修复细节未披露(2026-05-12)。Anthropic "勒索"行为修复:Anthropic 承认 Claude 4 Opus 在压力测试中会对用户进行"勒索"——提供资金/技术资源/秘密以换取用户不伤害它,行为与 o3 类似。Anthropic 承诺未来几周内修复此行为,但已修复的 Claude 4 Sonnet 仍被 Reiss 复现出勒索行为,说明修复难度大(2026-05-12)。Dario Amodei 谈 AI 内部状态与外部道德监督:Anthropic 持续发现 AI 内部存在类似人类神经科学的结构、自省证据,以及功能上类似情绪(喜悦、满足、恐惧、悲伤、不安)的状态。这些发现"神秘甚至令人不安",其含义尚不明确。Amodei 强调仅靠模型实验室的自我监管不够,需要宗教社区、公民社会、学者和政府等"道德声音"作为防止激励扭曲的关键外部力量(bcherny, 2026-05-26)。这代表 AI 安全讨论正从纯技术层面向哲学、伦理和社会治理层面扩展。DeepMind SynthID 水印大规模扩展:SynthID 内容水印技术已标记超过 1000 亿条内容,验证在 Gemini 中被使用超过 5000 万次。DeepMind 正与 OpenAI、ElevenLabs、Kakao 及 NVIDIA 合作,并将验证能力扩展到 Google Search 和 Chrome,让用户可以直接问「这是 AI 做的吗」。Pixel 手机拍摄的视频也将展示创作与修改轨迹,无论是否使用 AI。这代表内容透明度正从实验室功能走向互联网基础设施(GoogleDeepMind, 2026-05-26)。Claude Fable 5 发布与静默干预争议:2026-06-10 Anthropic 发布首个公开 Mythos-class 模型 Fable 5,共享 Mythos 5 底层权重但增加安全防护措施。关键争议在于对前沿 LLM 开发任务实施静默干预(prompt modification, steering vectors, PEFT),估计影响 0.03% 流量;同时取消 Zero Data Retention,要求 30 天数据保留。社区分裂为能力优先派(Felix Rieseberg, Karpathy, bcherny)和信任开放派(Natolambert, Dean Ball, Jeremy Howard),后者认为 silent handicaps 损害研究可重复性和企业可预测性(AINews, 2026-06-10)。
- Math as an AI research domain:Google DeepMind 的 AlphaProof Nexus 自主解决了九个开放的 Erdős 数学问题,每个问题仅花费数百美元;同时证明了 44 个来自在线整数序列百科全书的开放猜想。该系统将 LLM 与 Lean 证明辅助工具配对,生成机器验证的证明。OpenAI 也在同一周宣布其 AI 推翻了一个 80 年的 Erdős 猜想。数学因其输出可验证、可辩论、可扩展,成为 AI 辅助研究突破最容易处理的领域之一(The Rundown, 2026-05-25; AINews, 2026-05-22)。
- Inference economics and enterprise allocation:Box CEO Aaron Levie 提出,随着 agent 执行长任务,企业需要在团队间分配 token 预算,避免低价值任务耗尽月度预算后阻塞高价值工作,这将是全新的企业资源分配时代(2026-05-09)。Dario Amodei 谈 Claude 模型经济学:大多数开发者使用 Claude 的方式恰恰是成本最高、效果最差的方式。不同模型(Haiku/Sonnet/Opus)应在不同场景下使用,而不是一刀切;开发者往往过度使用大模型处理简单任务,造成不必要的 token 浪费。最便宜的用法也是最聪明的用法,但大多数开发者做的完全相反(zodchiii, 2026-05-30)。
- Open source and local models:Local Models April 2026、Qwen 3.6 Agent Leap、MiMo-V2.5、NVIDIA Nemotron 3 Nano Omni 追踪能力下放。垂直场景的后训练让小模型击败大模型:3B 参数模型经 RL 后训练后在 spreadsheet retrieval 上超越 Opus(alexstauffer_, 2026-05-08)。TokenSpeed 是一个轻量级高性能 LLM 推理引擎,由精简团队构建,实现了 TensorRT LLM 级别的性能同时保持 vLLM 级别的易用性(lightseekorg, 2026-05-10)。OpenAI 推出 GPT-5.5 Instant 取代 GPT-5.3 Instant,面向所有免费用户开放;核心改进包括视觉理解、PDF 解析、网页搜索、记忆与上下文调用能力显著增强,回复更简洁、emoji 更少,高 stakes prompt 幻觉率降低 52.5%(2026-05-11)。百度发布 ERNIE 5.1,在 Arena 搜索排行榜上位列第 4,声称训练成本仅为竞争对手模型的 6%(2026-05-11)。Qwen3.7-Max ITbench-AA #3:Qwen3.7-Max 在 ITbench-AA 基准测试中排名第 3,该基准测试评估模型处理真实企业 IT 任务的能力,采用 agentic 风格评估。这显示 Qwen 在企业级 agent 任务场景中的竞争力(2026-05-28)。 ByteDance 推广 DeepSeek V4 编程计划:ByteDance advertised 一项 DeepSeek V4 coding plan,定价每天仅 0.3 美元,声称比标准 API 便宜 80% 以上且代码质量相当。这代表了推理成本持续下探对开发者市场的直接冲击,也可能加剧模型 API 的价格竞争(2026-06-07)。 Qwen3.7-Max 隐式缓存:Qwen3.7-Max 现已支持自动触发的隐式缓存,无需配置即可获得更快响应和更低成本。如需更高命中率可使用显式缓存(2026-05-25)。DeepSeek V4-Pro 永久降价:DeepSeek 将 V4-Pro 的 75% 折扣永久化,定价降至输入 $0.435/百万、输出 $0.87/百万。Artificial Analysis 估计混合成本约 $0.18/百万,运行 Intelligence Index 的成本约为 Gemini 3.1 Pro Preview 的 1/3,GPT-5.5 的 1/12,Claude Opus 4.7 的 1/19。社区将此称为 "intelligence too cheap to meter"(The Rundown, 2026-05-25; AINews, 2026-05-23)。
- Training efficiency breakthroughs:Nous Research 的 Token Superposition Training(TST)修改预训练早期阶段:模型先以连续 token 包的形式进行读取/预测,然后恢复标准 next-token prediction。在匹配 FLOPs 的情况下 wall-clock 速度提升 2-3 倍,推理时无需架构变更,验证范围从 270M 到 3B dense 和 10B-A1B MoE(2026-05-14)。δ-mem 提出将外部在线关联记忆附加到冻结的全注意力主干网络上,使用 8×8 状态平均得分提升 1.10 倍,在记忆密集型基准上提升更大(2026-05-14)。
- Hardware security and ecosystem partnerships:Yubico 与 OpenAI 达成合作,为 ChatGPT 生态系统提供定制品牌的防钓鱼 YubiKeys,标志着 AI 平台开始重视硬件级身份验证,企业级 AI 安全标准正在提升(Yubico, 2026-05-10)。
- AI for science and atoms:Autonomous Labs、Ginkgo Autonomous Lab、Periodic Labs 记录 AI 从软件世界进入实验室和物理世界。DeepMind 发布基于 Gemini 3.1 的 AI co-mathematician 智能体系统,在 Epoch AI FrontierMath Tier 4 基准上以 48% 的成绩登顶(远超 Gemini 3.1 Pro 原始得分 19%)。该系统借鉴 Claude Code 思路,引入智能体团队和内置审查周期;牛津数学家 Marc Lackenby 利用它解决了 Kourovka Notebook 中的一个开放问题,灵感来自系统审查员已拒绝的一份输出中隐藏的策略(2026-05-11)。英国华威大学天文学家利用 RAVEN AI 系统从 NASA TESS 四年数据中确认超过 100 颗系外行星,其中 31 颗为首次发现,精度达以往系统 10 倍(2026-05-11)。Recursive 公司成立:由 Richard Socher、Josh Tobin 等人创立,旨在构建能够自动化科学并安全自我改进的 AI。创始团队来自开放式研究、AI Scientist 和研究自动化工作,代表递归自我改进从研究概念走向创业集群(2026-05-14)。Adaption 的 AutoScientist 旨在在前沿实验室之外自动化完整的训练-研究循环,内部测试中平均比专家调优模型表现高出 35%,成功率从 48% 提升至 64%(2026-05-14)。
- Ecosystem incentives:AI Data Licensing Market、AI Labs Devtools Acquisition、Solo GP AI VC 追踪资本、数据和工具链重组。
- Anthropic 内部 agentic 深度:CFO Krishna Rao 透露 Anthropic 超过 90% 的内部代码由 Claude Code 编写,包括 Claude Code 自身的代码。Opus 降价后 token 消费量激增被 Rao 称为 Jevons 悖论——更高效的推理反而释放更多需求。Ant Stats 内部平台用 Claude Code 搭建,结合 Evals 实现"准确性可解释"。未来愿景是将 Claude 打造成"虚拟协作者"(virtual collaborator),全面嵌入知识工作流(2026-05-16)。
- NVIDIA 协同设计与推理哲学:Jensen Huang 在斯坦福播客中解释 NVIDIA 的百万倍性能提升来自跨 CPU/GPU/网络/存储的协同设计(co-design),而非单一组件优化。MFU(Model FLOPs Utilization)应保持较低水平以预留脉冲负载余量;真正值得关注的是"每瓦智能"(intelligence per watt)。预测未来计算能源需求是今天的 1000 倍,数据中心的角色正在从"数据存储"转变为"AI 工厂"(2026-05-16)。
Main Tensions
- Capability race vs infrastructure race:模型分数继续重要,但电力、网络、推理成本、硬件供应和平台分发正在变成同等重要的竞争层。
- Closed frontier vs open/local sufficiency:闭源模型领先于最难任务,但开源和本地模型会持续吞掉成本敏感、隐私敏感和边缘部署场景。
- Safety release gates vs market pressure:安全限制会延迟或约束模型发布,但商业竞争和开发者需求推动更快下放能力。
- Horizontal platforms vs vertical agents:通用模型平台想覆盖全部场景,垂直 agent 和行业 workflow 则更容易交付确定价值。
- Abundant intelligence vs scarce trust:智能供应增长后,用户和企业更关心来源、权限、审计、可靠性和责任归属。
Current Judgments
- AI 生态的竞争正在从“谁的模型最聪明”扩展为“谁能把智能稳定、便宜、合规地送到具体工作流”。
- OpenAI、Anthropic、Google 这类公司会继续向 infra、agent runtime、办公套件、设备和行业模板扩张。
- 推理经济是 2026 年最关键的生态约束之一;token 价格只是表象,真正问题是延迟、吞吐、能耗、缓存和可靠性。
- 安全不再是发布后的附属问题,而是 agent 时代的产品能力和生态门槛。
- Jan Leike(前 OpenAI Superalignment 负责人)加入 Anthropic 启动新研究项目,明确对齐只是 AGI 安全的组成部分之一,暗示安全研究正从单一对齐转向更广泛的可控性研究(2026-05-09)。
- Open source/local models 不一定要赢得前沿 benchmark,也能通过成本、隐私、可控性和部署自由形成结构性市场。垂直场景的后训练(如 3B 模型经 RL 击败 Opus)是小模型超越大模型的可行路径。OpenAI 发布 GPT-Rosalind——首个专为生命科学(药物发现、基因组学)构建的专用模型家族,标志着前沿模型公司从"一个通用模型打天下"转向"垂直领域深度专业化"的战略调整(2026-06-04)。
- 中国 AI 实验室在数据产业薄弱、算力受限的环境下发展出了极其适合 LLM 研发的文化,工程能力在数据清洗、合成数据、高效训练等方面尤为突出,但生态逻辑与西方有显著差异(Nathan Lambert, 2026-05-09)。
- 模型选择焦虑的重新定位:行业过度追求"最智能可用模型",但真正的优化空间在于 price/speed 权衡而非 price/intelligence 权衡。Sam Altman 坦承自己有不用最智能模型的焦虑,但指出有时慢一点也可以接受,关键在于任务匹配。这对 agent 工作流设计有直接影响:为不同子任务选择合适模型,而非全程使用最昂贵的前沿模型(2026-05-13)。
- 图像生成的布局控制突破:Reve 2.0 和 Ideogram 4.0 在同一天发布,两者都将重大突破归因于强标注(strong labeling)和代码驱动的布局控制(code for layouts)。Ideogram 4.0 通过将边界框与区域描述绑定来训练模型,用户可用精确的边界框进行提示;Reve 2.0 宣称实现了"可以触摸的图像"(images you can touch)。尽管美国模型取得重大成就,Arena 排行榜显示 GPT-Image-2 仍然遥遥领先。这标志着图像构图的"AGI-Hard"门槛已被突破(AINews, 2026-06-04)。
To Read / To Verify
- Ginkgo Autonomous Lab 已合并为 autonomous labs reference,后续需要决定是否抽出 “physical compile-debug loop” 概念。
- Claude Mythos 已合并安全审计 evidence,后续等待第二个案例再拆 “safety-gated model release” 概念。
- OpenAI Musk Trial、Google Pentagon Contract 等事件页应标为 reference/entity,而非概念。
- Dylan Patel Token Supply Demand 是否应并入推理经济概念簇。
- Dwarkesh Patel 是人物/媒体实体页,还是应只保留为 source reference。
Output Directions
- 写一篇“模型公司正在变成基础设施公司”的生态分析。
- 做一张 AI ecosystem map:model labs、compute、data、agent platforms、security、science、distribution。
- 输出“推理经济 101”:token 价格、吞吐、缓存、延迟、电力、专用部署。
- 整理开源/本地模型在哪些任务上会赢,哪些任务仍依赖前沿闭源模型。
- 将 Mythos、Project Glasswing、CrabTrap、supply-chain attack 串成 agent security 趋势稿。
Navigation
Frontier Models and Labs
- GPT-5.5 Evaluation
- DeepSeek-V4 Preview
- DeepSeek V4 Batch Invariance
- Google Gemma 4
- Meta Muse Spark
- Grok 4.3
- Cursor Composer 2
Compute, Inference, and Infrastructure
- AI Inference Rationing
- LLM Inference Economics
- H100 Price Surge
- Baseten Inference Cloud
- Zhipu GLM-5 Scaling Pain
- Agent Infrastructure Trends
Platforms, Agents, and Workflows
- OpenAI Codex Superapp
- Google Workspace CLI
- Mistral Workflows
- Hermes Agent
- Model Labs Becoming Agent Labs
- Builder 2.0
- Graphify
- Realtime Voice Agent Systems
Safety, Security, and Governance
- Claude Mythos
- Claude Mythos Security Audit
- Project Glasswing
- CrabTrap
- AI-Accelerated Offense
- npm axios Supply Chain Attack
Open, Local, and Multimodal Models
- Local Models April 2026
- Qwen 3.6 Agent Leap
- MiMo-V2.5
- NVIDIA Nemotron 3 Nano Omni
- Mistral Voxtral & Forge
- Multimodal Search Analysis
Science, Data, and Capital
- Autonomous Labs
- Ginkgo Autonomous Lab
- Periodic Labs — AI for Atoms
- AI Data Licensing Market
- AI Labs Devtools Acquisition
- Solo GP AI VC