DeepSeek-V4 Preview — 开源模型旗舰

DeepSeek 在 OpenAI 发布 GPT-5.5 数小时内推出 DeepSeek-V4 Preview，开源 V4 Pro 与 V4 Flash 两款 MoE 模型。这是 DeepSeek 自 V3 (2024-12) 与 R1 (2025-01) 之后第一次重大版本升级。被技术社区评为"本年度最重要的 AI 论文之一"。

规格参数

模型	总参数	激活参数	上下文	训练 tokens	许可证
V4 Pro	1.6T	49B	1M	32-33T	MIT
V4 Flash	284B	13B	1M	32-33T	MIT

训练算力：约 1e25 FLOPs，20 tokens/参数比（@nrehiew_）
推理模式：DeepSeek 暴露三档推理力度，混合思考/非思考定位（@ArtificialAnlys @Togethercompute）
同时发布 Base + Instruct：罕见，为后续可能的 R2 留出接口；本次模型已自带推理力度调控

发布策略：反内卷 (2026-04-30)

来源：AI 简报 2026-04-30

@swyx 总结 DeepSeek V4 的"反内卷"发布策略：

不 benchmaxxing：不强调 benchmark 排名
不强调推理成本：不消耗推理最优算力
展示 SOTA 长上下文技术（CSA/HCA/mHC）后，开源最佳 base model 后退场
将 post-training 留给社区

这与主流实验室"发布即终点"的策略形成对比。DeepSeek 把 base model 作为起点，而非完整产品。

长上下文架构（CSA + HCA）

V4 系列最被看重的并非基准位置，而是首个真正"长上下文 + agentic 后训练相遇"的开放模型。架构核心是 CSA（Compressed Shared Attention）与 HCA（Hierarchical Compressed Attention）的组合：

机制	压缩比
共享 KV 向量	~2×
c4a 通道	~4×
c128a 通道	~128×
在压缩 token 上的 top-k 稀疏注意力	—
128-token 滑动窗口	—

V4 Flash 在某些层用滑窗替代 HCA，进一步降低成本。

KV-Cache 工程突破

模型	1M 序列 KV-Cache (bf16)	相对 V3.2
DeepSeek V3.2	83.9 GiB	1×
DeepSeek V4 Pro	9.62 GiB	8.7× 缩小
V4 Pro + FP4 索引 + FP8 attention	~5 GiB	~17× 缩小

@ben_burtenshaw 的简化口径："KV Cache 缩小 10×"。这是把 1M 上下文从"营销噱头"变成"可运营落地"的工程关键。

量化与部署

检查点：FP4 + FP8 混合（MoE 专家 FP4，注意力/norm/router FP8）
整模可装入单 8×B200 节点（@LambdaAPI）
Blackwell Ultra 上 V4 Pro 可达 150+ TPS/用户的 agentic 工作流速度（@NVIDIAAI）
全平台 day-0：H200, MI355, B200, B300, GB200/300（@SemiAnalysis_）
MLX day-0：V4 Flash 已在 256GB Mac 上跑通（@Prince_Canuma）
vLLM, SGLang day-0：包括 RL 流水线支持

vLLM 生态快速成熟（2026-04-28 至 2026-04-29）

来源：AINews 2026-04-28、AINews 2026-04-29

vLLM 0.20.0 核心更新：

DeepSeek V4 base 模型支持即将到来，需 expert_dtype 配置字段区分 FP4 instruct 与 FP8 base
FA4 成为默认 MLA prefill
TurboQuant 2-bit KV 量化支持 → 4× KV 容量
Blackwell MegaMoE 路径：DeepSeek 专用推理优化
新 vLLM IR 基础架构
Fused RMSNorm → 端到端延迟降低 2.1%
支持 DeepSeek V4 MegaMoE on Blackwell、Jetson Thor、ROCm、Intel XPU、GB200/Grace-Blackwell

FP8 KV Cache 突破（vLLM + Red Hat/AWS 联合发布）：

修复 FA3 两级累积问题后，128k needle-in-a-haystack 准确率从 13% 跃升至 89%
同时保持 FP8 decode 加速

SemiAnalysis 早期服务结果： DeepSeek V4 Pro 在 B200/B300/H200/GB200 分离式部署上的早期结果显示，B300 比 H200 快达 8 倍。vLLM 0.20 将集成 DeepGEMM MegaMoE（融合 EP dispatch + EP combine + GEMMs + SwiGLU 为单一 mega-kernel）。

长上下文三大工程杠杆（@cHHillee 总结）：

局部/滑动注意力
交错局部-全局注意力
GQA/MLA/KV tying/量化减小每层全局 KV

这些更新共同把 V4 的 1M 上下文从"能跑"推向"跑得好"。

FP4 量化感知训练（QAT）

V4 引入 FP4 量化感知训练，在训练阶段即让模型适应低精度计算，部署时无需额外量化转换，训练与部署行为完全一致。关键工程技巧：FP4 → FP8 转换可做到无损（FP8 多 2 位指数位，动态范围完全兜住 FP4 精度信息），因此 QAT 流程可直接复用现有 FP8 训练框架，改动量极小（参见 J0hn 技术解读）。

定价

模型	Input	Output
V4 Flash	$0.14 / 1M	$0.28 / 1M
V4 Pro	$1.74 / 1M	$3.48 / 1M
GPT-5.5 标准	$5 / 1M	$30 / 1M
Opus 4.7	$5 / 1M	$25 / 1M

地缘性降价信号：DeepSeek 公开表示，一旦华为 #与华为 Ascend 950 的协同 supernode 在 2026 下半年规模化，Pro 价格可能再大幅下降（Reuters 经 @scaling01 转引）。

限时 75% 折扣（2026-04-26）

V4 Pro API 限时降价 75%，截止 2026-05-05 15:59 UTC。

永久 75% 折扣（2026-05-25）

DeepSeek 宣布将 V4-Pro 的 75% 折扣永久化（The Rundown, 2026-05-25）。

定价项	新价格
输入	$0.435 / 1M tokens
输出	$0.87 / 1M tokens
缓存输入	$0.0036 / 1M tokens
混合估计	~$0.18 / 1M tokens

@ArtificialAnlys 量化：V4 Pro 现位于智能 vs 运行成本的帕累托前沿。运行其 Intelligence Index 的成本约为 Gemini 3.1 Pro Preview 的 1/3，GPT-5.5 的 1/12，Claude Opus 4.7 的 1/19。社区将此称为 "intelligence too cheap to meter"。

Claude Code 生态集成

Claude Code：设置 model 为 deepseek-v4-pro[1m] 解锁 1M 上下文
OpenCode：需更新至 v1.14.24+
OpenClaw：需更新至 v2026.4.24+

独立基准评测

Vals AI Vibe Code Bench

The Rundown 2026-04-27 报道称，DeepSeek V4 Pro 在 Vals AI 的 Vibe Code Bench 中排名第一。该结果补充了页面中已有的 AA Index 与 GDPval-AA 数据：V4 Pro 在编码与应用型任务上更接近开放模型第一梯队，但综合智能评价仍低于最强闭源模型。

Artificial Analysis Intelligence Index

模型	AA Index	备注
Kimi K2.6	54	开放权重 #1
V4 Pro Max	52	开放权重 #2，比 V3.2 (42) 提升 10
V4 Flash Max	47	"Sonnet 4.6 max 智能水平"

GDPval-AA（实际 agentic 工作）

V4 Pro 1554 居开放权重首位，超越 Kimi K2.6 (1484)、GLM-5.1 (1535)、MiniMax M2.7 (1514)。

AA-Omniscience（事实性 + 校准）

模型	AA-Omniscience	幻觉率
V4 Pro	-10（比 V3.2 提升 11）	94%
V4 Flash	—	96%

幻觉率仍是开放权重痛点。

LMArena 排位

文本 Arena 总榜：开放权重 #2
医学：#1
创意写作：#15
多轮对话：#18
思考变体：数学 #8，生命/物理/社会科学 #9
Pro 比 Flash 高 ~30 名但贵 12× — Flash 性价比突出

跑测试成本警告

模型	AA Index 测试成本	输出 tokens
V4 Pro	$1,071	190M
V4 Flash	$113	240M

@ArtificialAnlys 警告：单价便宜 ≠ 总任务便宜。V4 系列倾向于"喷出"巨量 tokens，需配合 effort 调控。

社区争论

1. 是否接近前沿？

@scaling01：V4 在 GPT-5.2 / Opus 4.5+ 档位，但低于 Opus 4.7 / GPT-5.4 / Gemini 3.1 Pro，落后约 4-5 个月
@teortaxesTex：称为"目前最强的预训练 base 模型"
共识：科学/法律/医学等垂直领域距离最大

2. 真正贡献是模型质量还是长上下文系统设计？

技术圈普遍认为长上下文系统设计 > 基准位置——这是首个长上下文 + agentic 后训练在开放权重上"相遇"的样本。

3. 是否真"民主化"？

@teortaxesTex：架构过于复杂，多数实验室无法复制，"不是真正民主化的技术"
@Prince_Canuma：已在 Apple Silicon 上跑 Flash，软化了悲观判断

4. Flash 是否被低估？

@TheZachMueller：Flash@max ≈ Pro@high 在推理任务上
"以分计费的 1M 上下文"在传统基准里不显示，但实际部署中可能是杀手特性
@DistanceSolar1449（Reddit）反对："V3.2 (671B) 是 $0.26/$0.38, V4 Flash (284B) 是 $0.14/$0.28——按参数线性缩放，V4 Flash 更贵"
@jwpbe 反驳：跨厂商比较，V4 Flash 比 MiniMax 2.7 便宜 3×，比 Qwen 等价物更低

5. 蒸馏争议

@cloneofsimo 戏称"他们蒸馏了 Claude"
@yacineMTB 推测部分批评来自被超越方的酸味
@teortaxesTex 实质性反驳：DeepSeek 中文写作质量反映长期数据清洗执着（引用招聘启事佐证）
与 2026-04 NSTM 备忘录形成实证对照——架构创新与蒸馏指控之争未有定论

一手实测对比（2026-04-26）

来源：WeChat Brief 2026-04-26、J0hn 技术解读

微信收藏中的两篇中文一手测试显示 V4 在编程能力上快速追赶，但细节有分化：

量子位测试

V4 Pro 在 Coding 评测中达到开源模型最佳水平，可搭建完整网站、开发文字策略冒险游戏
在"对着镜子举手"等经典推理踩坑题上直接完胜 ChatGPT-5.5
1M 上下文支持更长文档分析
网友 David Ondrej 测试视频显示 V4 能力比肩 GPT 和 Opus，且更便宜
博主 @Bijan Bowen 用 V4 搭建飞机穿梭云层的 3D 交互世界

AI寒武纪测试（Claude Code 调用 V4 Pro vs GPT-5.3 Codex High）

任务	DeepSeek V4 Pro	GPT-5.3 Codex High	评估模型
算法题（LRU Cache）初版	8.2 分	7.8 分	GPT-5.5 thinking
算法题 3 轮后	9.0 分	8.6 分	—
Agent 任务（Markdown CLI）	8.0 分	8.7 分	—
评价	"第一响应最标准"	"最像成熟代码 Agent"	—
成本	整个测试仅 $1.4（2.5 折促销）	—	—

关键结论：

V4 Pro 的"第一响应"质量更高，适合快速原型
GPT-5.3 Codex High 的收尾更稳，工程化完整度更好
DeepSeek API 2.5 折期间性价比极高
OpenAI 迭代节奏：GPT-5.3（2月24日）→ GPT-5.4（3月5日）→ GPT-5.5（4月23日），基本月更

内部开发者调查

DeepSeek 内部调查（85 人）：V4-Pro 能否作为日常编程默认模型？

52% 说可以
39% 倾向于可以
不到 9% 说不行

主要吐槽：偶尔犯低级错误、对模糊指令容易误解、有时候想太多。

本地部署实测

V4-Flash 13B 激活参数使其成为首个能在消费级硬件上不做压缩直接跑的前沿模型：

4 块 RTX 6000s：38.6 tok/s 解码速度，首 token 延迟 < 1 秒，8 路并发，40 万 token 上下文
256GB Mac M3 Ultra：Ollama 等框架 day-0 上架

训练工程

训练规模与稳定性

V4 训练数据从 V3 的 15T tokens 翻倍至 33T tokens。训练过程中遇到 loss spike（异常跳变），排查发现总跟 MoE 层异常值有关，路由机制似乎在加剧问题。

两个反常规的解决方案：

Anticipatory Routing（预见性路由）：将路由决策与主干网络参数更新解耦——路由使用稍早几步的参数而非当前步。阻止路由异常和主干异常之间的恶性循环。额外开销约 20%，但配有自动检测机制，仅在 spike 发生时触发。
SwiGLU Clamping：将激活函数输出裁剪到 [-10, 10]，直接「掐掉」异常值。

DeepSeek 的坦诚风格："虽然它们被证明有效，但其底层原理仍未被充分理解。"

Muon 优化器

V4 首次在万亿参数模型上使用 Muon 优化器（来自 Moonshot/Kimi 团队）。与传统 AdamW 的元素级（element-wise）更新不同，Muon 是矩阵级别的优化器——把整个参数矩阵作为整体进行归一化和正交化处理（Newton-Schulz 迭代近似），更好利用矩阵中元素之间的联系，让训练更稳定、收敛更快。

Muon 演进时间线

来源：<a href="/wiki/raw/to-learn/详解-deepseek-v4：infra-巨鲸-"四连击"，百万上下文走进现实.md" class="wikilink">详解 DeepSeek V4 — 晚点聊

时间	里程碑	关键贡献
2024-10	Keller Jordan 提出 Muon	矩阵级优化器初版；需要为不同模块（线性层、嵌入层）分别调学习率，对使用者不友好
2025 年初	Kimi 发布 Moonlight	把 Muon 与 AdamW 的学习率比例基本确定为 0.2——Muon 处理二维参数，AdamW 处理一维参数；用户只需设置一个超参就能跑全模型；从理论创新走向大规模应用
2025 年中	Kimi K2 发布 MuonClip	Muon 改进版；K2 也仅在数据并行（DP）层做切分，未做张量并行（TP）切分
2025 年底	OpenAI 招募 Keller Jordan	标志 Muon 主流化
2026-04	DeepSeek V4 进一步改进	把 Muon/AdamW 学习率比例精算到 0.18；牛顿-舒尔茨迭代从 5 步增加到 10 步——单步消耗增加，但精度更高，整体反而更快

Muon 的 Infra 代价

刘益枫（UCLA）指出 Muon 不是简单替换 AdamW：

训练侧必须改，要从英伟达 Megatron / Megatron-Bridge 这一层开始改，再逐层下传；推理侧不需要关心（不涉及参数更新）
预训练和后训练优化器要保持一致——而后训练的 infra 结构更复杂（单机装不下），后训练适配 Muon 会带来更多结构修改。这是为什么"没改 Muon 的实验室，可能是后训练改不动 → 预训练也只能用 AdamW"
Muon 砍掉了二阶动量，optimizer state 从两倍降到一倍，节省可观显存
但需要在动量上跑完牛顿-舒尔茨迭代后做正交化——这不是逐元素操作，必须拿到完整二维权重；如果参数已被 TP 或 FSDP 切碎，就要先聚合回来再计算
Muon 不是简单替换 AdamW，而是用大量人力和工程复杂度换显存与收敛效率——值不值得，取决于团队工程水平、显卡数量和模型规模

赵晨阳（SGLang）原话："优化器是检验一个团队工程能力的试金石。"

开源生态的相互激发

DeepSeek V4 用 Kimi 的 Muon；Kimi K2/K2.6 用 DeepSeek V3 的架构（超稀疏 MoE + MLA）；DeepSeek 与 Kimi 在 Muon 超参数与改进版本上互相推进。这种相互激发是开放权重生态最具价值的部分。

后训练流程

V4 后训练分两步：

培养专家：数学、编程、Agent、指令跟随，每个领域分别做 SFT + GRPO 强化学习
合并能力：用 On-Policy Distillation（在线策略蒸馏） 把十多个专家合到一个模型里。学生模型生成自己的回答，对照多个教师模型的完整输出分布做蒸馏，比 V3.2 的混合 RL 方案更稳定

三种推理模式：快速响应（Non-think）、正常推理（Think High）、极致推理（Think Max），训练时用了不同的上下文窗口和长度策略。

与华为 Ascend 950 的协同

V4 是首个明确以"华为 CANN 兼容 + Ascend 950 扩产 → 杀价"为长期路线图的开放旗舰：

当前 Ascend 供应仍只有 H100 的 1/4，但是中国全栈自主的关键里程碑
@Dorialexander：主权约束反而可能重塑硬件、内存、互连设计
@jukan05 反向解读：V4 论文恰恰证明 NVIDIA 的 Blackwell/Rubin/HBM/互连战略对 MoE/长上下文模型对齐良好
@Worried-Squirrel2023：DeepSeek 在拿 NVIDIA 利润换 Ascend 供应，950 supernode 规模化后将能在开放权重层级再杀价

DeepSeek 同期发布 DeepEP V2 与 TileKernels——TileKernels 引入据称"线性扩展"的并行化（计算翻倍 → 速度翻倍），开源。社区对线性扩展的真实性持谨慎态度，若属实则为重大突破。

技术报告本身的反响

58 页密集报告获得罕见高度赞扬：

评价者	评价
@scaling01	"技术论文本身就是大事"
@Dorialexander	"本年度最重要的 AI 论文"
@morqon	"我读过最好的论文之一"

许多前沿发布技术披露稀薄；V4 重置了开放发布的预期标准。

但报告对预训练数据细节的披露仍不足（@nrehiew_）。

实务限制与警告

推理 RL 可能"未充分煮透"（@scaling01）
服务困难：许多实验室仅 20-30 tok/s 且并发受限，跑评测要一整天
token 用量惊人（@ArtificialAnlys 重要警告）
DeepSeek API 不允许 sampler 控制（@stochasticchasm）
模型倾向过度思考问题——会把"只用一把刀"等约束当作必要条件而非可选条件（Reddit UserXtheUnknown）

2026-05-02 更新：reasoning_content 空字符串陷阱

来源：AI 简报 2026-05-02 Morning、AI 简报 2026-05-02 Evening

@karminski3 用 POV 场景把一个高复现率（约 59%）的 API 兼容性 bug 落实到了具体机制：

报错形态：HTTP 400 The reasoning_content in the thinking mode must be passed back to the API
触发条件：当 tool_call 内容过于简单 / 显而易见时，DeepSeek V4 返回 reasoning_content 为空字符串
失败链路：大多数 IDE 和 coding agent 默认过滤掉空字段 → 下一轮请求里该字段直接消失 → DeepSeek 校验不到 → 报错
正确做法：必须原样回传空字符串——不能换成空对象、不能丢字段
影响范围：Claude Code、Kimi CLI、Cursor 等主流 coding agent 全中招，重试 3 次都不一定够

这是 Agentic Software is Systems Engineering 里"边界协议必须原样回传"的具体案例。Harness 这一层的工程债务（"空字段是脏数据"这个传统假设）一旦遇到 reasoning model 的强约束 API，就会变成 59% 复现率的生产事故。

修复路径：

自有 harness：直接修补字段过滤逻辑
用开源 coding agent：fork 一份魔改，等官方修复

2026-05-25 更新：永久降价与生态信号

来源：The Rundown 2026-05-25、AINews 2026-05-23

DeepSeek 将 V4-Pro 的 75% 折扣永久化，定价降至输入 $0.435/百万、输出 $0.87/百万、缓存输入 $0.0036/百万。Artificial Analysis 估计混合成本约 $0.18/百万，将 V4 Pro 置于智能 vs 运行成本的帕累托前沿。

成本对比（运行 Intelligence Index）：

V4 Pro：~3× 低于 Gemini 3.1 Pro Preview
V4 Pro：~12× 低于 GPT-5.5
V4 Pro：~19× 低于 Claude Opus 4.7

社区将此称为 "intelligence too cheap to meter"。这一价格信号可能重塑 agent 工作流的经济学：当推理成本趋近于零，agent 的调用频率、上下文长度和并行度将不再受预算硬约束。

2026-05-02 更新：Pi coding agent 中的 V4 Pro 实战

来源：AINews 2026-05-02，引自 @omarsar0

@omarsar0 在 Pi coding agent 中测试 DeepSeek V4 Pro 后给出了一个相对直接的判断——首个在 multi-turn agentic coding 中真正可比肩 Codex 或 Claude Code 的开源权重模型。

具体观察：

1M 上下文与 CSA/HCA 混合注意力让长链 agentic 调用稳定
KV cache 压缩到 V3.2 的 10%
长上下文推理 FLOPs 降低近 4 倍
在 Fireworks 推理上跑可行的多步研究/编码循环
无需自定义设置——拿来就能用

把 @omarsar0 的实测和 Zhipu GLM-5 Scaling Pain 同期暴露的 PD 分离 KV Cache 竞态一起看：开放权重模型在 1M 上下文 + Coding Agent 这个场景上的差距，正在从"模型能力差距"变成"推理工程深度差距"——DeepSeek 因为同时控制了模型权重和推理工程，这条线领先于其他开放权重供应商。

战略意义

开放权重长上下文不再是营销噱头：V4 通过具体的 KV-Cache 工程（9.62 GiB / 1M）和开放推理支持，证明 1M context 在开放模型中可运营落地
中国顶级实验室在开放权重领域保持竞争力：Kimi、GLM、DeepSeek、即将到来的 MiMo 占据开放权重顶层
"开放"的门槛在升高：从发布 checkpoint 升级到全栈协同设计——模型与 vLLM、Blackwell、MLX、Mac、Ascend 集群、KV/内存架构密不可分
本地生态的范式转移：Reddit 社区争论已从"模型多强"转向"花多少 RAM/VRAM、用什么量化、跑什么 KV 配置"——开放生态从"能不能跑"进入"如何高效部署"

swyx: V4 的"反内卷"发布策略 (2026-04-30)

来源：AI Briefing 2026-04-30 afternoon

@swyx 观察到 DeepSeek V4 展示了一种与主流实验室截然不同的发布哲学：

不 benchmaxxing：不追求刷榜
不强调推理成本：不炒作"比某某便宜 XX%"
不消耗推理最优算力：不通过疯狂推理时计算拉分
直接展示 SOTA 长上下文效率技术（CSA、HCA、mHC），开源最佳基础模型后退场
将 post-training 留给社区，只提供最好的 base model

这种策略与 GPT-5.5 / Opus 4.7 的"刷榜→营销→商业变现"路径形成鲜明对比，被 swyx 解读为"彻底的自信和能力"——不参与基准军备竞赛，而是让模型质量本身说话。

Evidence across sources

Source	Key Claim	Relevance
[[raw/newsletters/AINews/2026-04-24 [AINews] GPT 5.5 and OpenAI Codex Superapp.md\|AINews 2026-04-24]]	V4 发布在 GPT-5.5 数小时内；MIT 许可；MoE + 1M 上下文	第一手发布事件
AI 简报 2026-04-26	75% API 限时折扣；Claude Code 生态集成（`deepseek-v4-pro[1m]`）	工具生态渗透
AINews 2026-04-25	CSA+HCA、KV-Cache 9.62 GiB / 1M、AA Index 52/47、GDPval-AA 1554、社区"4-5 月差距"判断、Flash 在 256GB Mac 跑通	架构与基准全景，奠定页面骨架
J0hn 技术解读	训练稳定性（loss spike/Anticipatory Routing/SwiGLU Clamping）、Muon 优化器来源、FP4 QAT 细节、内部调查 85 人、本地部署实测、幻觉率 94%/96%、开源生态互助关系	训练工程与部署落地深度
The Rundown 2026-04-27	V4 Pro 在 Vals AI Vibe Code Bench 排名第一；V4 Pro 定价 $1.74/$3.48，明显低于 GPT-5.5 与 Opus 4.7；华为 Ascend 支持使主权基础设施路线更具体	补充市场叙事、价格比较与 Ascend 生态意义

Open questions

CSA + HCA 的 KV-Cache 工程是否会被其他实验室快速吸收？还是因架构复杂度成为 DeepSeek 的护城河？
94% 幻觉率在长上下文 agentic 任务中的实际危害如何？是否需要新的 alignment 方法？
Ascend 950 supernode 规模化后，V4 Pro 价格能下探到什么档位？是否会触发新一轮"开放权重 vs 闭源"价格战？
"落后前沿 4-5 月"的差距是稳态还是收敛？参见蒸馏争议
Flash@max ≈ Pro@high 的现象暗示什么？是否说明在某些任务上 49B 激活已"饱和"？

GPT-5.5 ("Spud") — 模型评估（同期发布的 OpenAI 旗舰）
美国对中国 AI 蒸馏指控（NSTM-4 备忘录）
H100 价格逆势上涨（V4 部署的硬件背景）
AI 推理配给
本地模型推荐榜单 — 2026 年 4 月
MiniMax M2.7
Claude Code

视觉原语：破解"指代鸿沟"（2026-05-03）

来源：DeepSeek 视觉原语技术报告

DeepSeek 提出"指代鸿沟"（referential gap）概念：多模态大模型无法像人类一样在思考时精确"指认"画面中的物体。看清楚不等于想清楚。

解法：把空间标记作为语言的一部分嵌入思考过程

边界框（bounding boxes）：擅长固定物体边界，用于计数、属性对比、多物体空间推理
坐标点（coordinate points）：擅长抽象空间引用，如追踪复杂曲线、迷宫路径

工程成果：

756×756 图像 → 2916 个 patch tokens → 3×3 压缩到 324 个 → 压缩稀疏注意力 4× 压缩 → 最终 81 个 KV 缓存条目
整体压缩比 7056 倍
13B 激活参数模型在计数、空间推理、拓扑推理上与 GPT-5.4、Claude-4.6 正面较量，算力消耗为后者的几十分之一

训练流水线：

预训练：近 10 万个框定位数据源，两阶段自动过滤（语义审查 + 几何质量审查），最终 4000 万+ 高质量样本
专业化 SFT：框专家和点专家分别训练
专业化 RL：计数用平滑指数衰减奖励，迷宫导航拆成 5 个子项奖励，路径追踪用双向轨迹评估
统一 RFT：两个专家在数据池上推演，筛选有价值样本训练统一模型
在线策略蒸馏：统一模型同时向两个专家学习，KL 散度损失拉近输出分布

Batch Invariance：工程确定性的硬约束（2026-05-03）

来源：DeepSeek V4 batch invariance 关键特性、<a href="/wiki/raw/to-learn/详解-deepseek-v4：infra-巨鲸-"四连击"，百万上下文走进现实.md" class="wikilink">详解 DeepSeek V4 — 晚点聊

定义：对于同一个 token，无论它在批次里排第几、批次多大、和谁一起批处理，输出保持逐比特完全一致。

为什么重要：

保证线上推理结果稳定（动态 batching 下同一输入得到一致输出）
保证预训练、SFT、RL、推理全流程可复现、可对齐
复杂上下文系统（长上下文 attention + 压缩 KV + 稀疏注意力 + MoE + FP4/FP8 + 自研 kernel）的数值稳定性底座
后训练更稳定：RL、蒸馏、长链推理对细微差异敏感，batch invariance 减少随机数值扰动

代价：

不能使用 split-KV、split-K 等常见性能优化（会改变并行归约路径）
GPU 利用率下降（波前量化问题）
小批量/短序列速度下降
工程复杂度上升：自研 DeepGEMM 替代 cuBLAS，dual-kernel 注意力（为同一任务准备两套计算程序分别处理 GPU 吃得满/吃不满的情况）

换取：训练/推理/RL 三阶段逐比特可复现；长上下文、Agent、RL 训练稳定度；多机多卡结果完全对齐。

Infra 巨鲸的"四连击"——系统级耦合优化（2026-05-03）

来源：<a href="/wiki/raw/to-learn/详解-deepseek-v4：infra-巨鲸-"四连击"，百万上下文走进现实.md" class="wikilink">详解 DeepSeek V4 — 晚点聊

"系统级耦合优化比单点创新更难。"——赵晨阳，SGLang

V4 一次性引入至少四个互相耦合的新东西：混合注意力（CSA + HCA）、mHC（流形约束超连接）、Muon 优化器、FP4 训练精度。任何一个单独上线都需要大规模 debug，四个一起上的复杂度是组合式爆炸。这也是 V4 训练时间比预期长（原计划春节前后发布，实际拖到 4 月 26 日）的原因。

晚点聊嘉宾——刘益枫（UCLA 在读博士、原 Kimi/字节 Seed 实习生）和赵晨阳（SGLang 核心开发者、RadixArk AI）——的访谈把这套耦合优化的细节摆上了台面。

1. 注意力：放弃 MLA，回到 MQA + 双压缩

V4 放弃了从 V2 到 V3 使用的 MLA（多头潜在注意力），重回更接近原始 Multi-Head Attention 的 MQA（Multi-Query Attention），再叠加 token-wise 的 CSA / HCA 压缩。这是一个出乎意料的反转——几个月前 ICLR 会场的共识是"开源模型架构已收敛到 MLA，下一步只是小改进"。Kimi K2.6、GLM 5.1 仍在用 MLA。

原因：MLA 已经是 token 级的潜在压缩；如果继续保留 MLA，再叠加 CSA/HCA 的 4:1 甚至 128:1 大尺度压缩，实现起来过于复杂。两层压缩很难协同。

CSA / HCA 的双轨架构

V4 的每一层同时跑两条路径：

通道	机制	压缩比	角色
滑动窗口（SWA）	局部稠密	128 token 窗口	抓近距离上下文
CSA（压缩稀疏注意力）	序列维度先压缩、再 top-k 选取	4:1	稀疏路线，精确锁定关键 token
HCA（重度压缩注意力）	大尺度压缩、保持稠密	128:1	稠密路线，提供整体语义概览

每层用 CSA 还是 HCA 是预定义的，因此面对同一个长上下文，不同层从不同视角去看——稀疏层精确锁定关键 token，稠密层提供整体语义概览。V4 Flash 在某些层用滑窗替代 HCA，进一步降低成本。

推理框架的"重建"

赵晨阳（SGLang）：V4 的混合注意力机制让前缀缓存、FlashMLA、投机解码这些链路全部要重建——这是 V3 时代不需要解决的问题。

工程产物	解决问题
ShadowRadix	前缀缓存一致性：三个异构 KV 池（SWA / C4 / C128）+ 两个压缩状态池，要在预填充、解码、投机解码三个阶段保持同步
HiSparse CPU 扩展 KV	把稀疏注意力的 KV 卸载到主机内存，长上下文场景拿到 5× 吞吐
全平台 day-0	英伟达 Hopper、Blackwell、Grace Blackwell、AMD、NPU 全部适配

意义：V4 把计算 / 显存成本压到 V3.2 的 27% / 10%，要在生产环境跑出商业价值，必须有 ShadowRadix、HiSparse 这类底层能力的同步推进。

2. 残差：mHC——HC 的稳定性修复，与 Kimi Attention Residual 的对照

HC（超连接）→ mHC（流形约束超连接）

HC 起源于字节 Seed：思路是扩展层与层之间的信息流宽度——以前 Transformer 层之间只有 d 维信息流，HC 加入 channel 维，让信息流变成 d × c，推理能力显著提升。但原本 HC 的数学原理导致梯度回传和训练不稳定，社区反响不强烈。

DeepSeek 的 mHC 修复：加入 Sinkhorn 算法（一种数学归一化算法），约束路由和注意力分布，使其更均衡、数值更稳定。这个改进既需要对 HC 潜力的判断，又需要基于内观指标（梯度的 scale、激活值）从现象倒推问题。

Kimi Attention Residual：DenseNet-Like 的层级跨连

Kimi 在 2026 年 3 月初提出 Attention Residual——直接跨层相连，第一层可以直接影响最后一层，类似 DenseNet 在 CNN 里的密集连接结构。

两条路线对比

维度	mHC	Attention Residual
方法	扩展信息流宽度 + Sinkhorn 归一化	跨层直连，DenseNet 风格
共同点	layer-wise（层级别）改进信息流	layer-wise（层级别）改进信息流
Infra 难度	较低，实验室可以做	较高，对每层关系有更精确描述
上限判断（刘益枫）	已被验证	可能更高——但实验室资源有限难做

刘益枫："这可能类似从 ResNet 到 DenseNet 的变化。对 Transformer 架构来说，未来可能会出现提高层间信息流动的新趋势。"

mHC 对推理框架的影响

赵晨阳：mHC 把简单的残差变成了一个需要混合 GEMM 和 Sinkhorn 归一化的复杂操作——之前的算子对 mHC 不够高效，需要单独写新 kernel。"为新算法定制新 kernel 在 V3 之前并不频繁；好在我们现在有更好的工具，比如 TileLang。"

3. Muon：详见上文「训练工程：Muon 优化器」

V4 在 Muon 上的具体改进——把学习率比例从 Kimi Moonlight 的 0.2 精算到 0.18，把牛顿-舒尔茨迭代从 5 步增加到 10 步——属于"四连击"的核心一击。详见上文 Muon 优化器的演进时间线和 infra 代价。

4. Infra：FP4 + TileLang——把"理论可行"变成"成本可接受"

FP4 量化感知训练（QAT）的工程巧思

V4 把训练精度从 V3 的 FP8 推进到 FP4——同样位宽更短，峰值算力更高、显存容量更大、数据读取更快，但位宽太小容易导致训练中梯度溢出或归零。DeepSeek 解决问题的关键是 quantization-aware training：

阶段	量化方式	机制
训练时（伪量化）	优化器维持 FP32 主权重 → 计算前压缩到 FP4 范围 → 无损反量化回 FP8 计算	没有真正的低精度前向计算，但让模型提前适应量化误差；用 block-wise scale points 兜住离群点
采样时（真量化）	真实 FP4 量化，权重直接用于采样	降低访存瓶颈，物理提速；与最终发布的 checkpoint 一致

关键洞察：FP4 → FP8 的转换可以做到无损——FP8 多 2 位指数位，动态范围完全兜住 FP4 精度信息。所以 QAT 流程可以直接复用现有 FP8 训练框架，改动量极小。

RL 阶段优化收益：模型越大、token budget 越长，采样时间占比可能超过 70%——采样时降低位宽和显存读取压力，对速度提升非常明显。Kimi K2 也用了类似思路。

前沿对比：SGLang 团队的 INT4 QAT 采样做的是 W4A16（权重 4 位、激活值 16 位），DeepSeek 推到了更极限的 W4A8——极致性能上 DeepSeek 走得更远。FP4 已经走出硬件厂商的 PPT，成为开源语言模型世界里真正跑通的工业标准。

TileLang——北大开源项目，新算法的 kernel 杠杆

赵晨阳戏称 TileLang 为"太浪"。它在 kernel 编程语言光谱上的位置：

语言	性能	开发成本	表达能力
CUDA	最高	最高（英伟达护城河）	最强
Triton（OpenAI 开源）	中等（比 CUDA 低不少）	较低	较弱
TileLang（北大杨智团队发起）	接近 CUDA	较低	较强

V4 报告对 TileLang 的具体使用：

kernel 启动开销压缩到微秒级
位级可重现（bit-level reproducibility）：同一 prompt 输入两次前向推理，结果更容易复现，对推理工程师 debug 极有价值
DeepSeek 提出 mHC 时直接写了一版 TileLang 的 kernel
SGLang 团队针对小批量解码做了 split-K 的 TileLang 版本

生态意义：TileLang 大大降低了为新算法快速开发新 kernel 的边际成本。最近一年半，TileLang 已开始被全球前沿 lab 当作算法实现的默认选择之一。中国硬件厂商正在主动支持 TileLang 生态。"如果 TileLang 越来越繁荣，和 CUDA 长期是丰富生态还是形成竞争？很难说——就像模型厂商会发技术报告，大家彼此借鉴，但也存在竞争。"

5. 训练工程的两个并行决策：稀疏极限与多专家分裂

激活比的"雕花"

V4 把激活比（激活参数 / 总参数）推到了目前业界最激进的位置：

模型	总参数	激活参数	激活比
DeepSeek V4 Pro	1.6T	49B	~3.0%
Kimi K2.6	—	—	3.2%
MiMo-2.5-Pro	—	—	~4.1%
MiniMax M2.7	—	—	4.35%
GLM 5.1	—	—	5.3%
DeepSeek V3	671B	37B	5.5%

赵晨阳："这一连串数大家可能听起来像在雕花，但很反映工程能力——从 4% 降到 3% 比从 5% 降到 4% 难得多。不是其他团队做不到，而是大部分团队会稳扎稳打，DeepSeek 选择继续推到极限。"

但激活比不是越低越好。比例太低带来负载不均、专家训练不充分、路由抖动等问题——能把 3% 稳定训下来，本身就是工程能力的证明。起始层用 HashTop-K MoE 路由（直接通过输入 token 的 ID 计算哈希值固定分配专家，不依赖模型计算亲和度），就是为了在算法上避免前几层专家路由高度集中。

多专家训练 + On-Policy Distillation：把 Pareto 优化变成插值

赵晨阳的解读：联合训练相当于在多目标 loss surface（损失曲面）上找 Pareto 最优——但工程上很难同时满足，梯度走向复杂、目标冲突严重（一味推 coding 能力，数学可能变差；数学修好了，指令遵循可能受影响）。

V4 的做法是先分裂、再蒸馏：

分裂：在数学、编程、Agent、指令跟随等领域分别培养专家——每个目标上找局部最优
蒸馏：用 on-policy distillation——学生模型生成自己的回答，对照多个教师模型的完整输出分布做蒸馏

"这相当于把复杂 loss surface 上的联合优化，变成在已收敛离散点之间做插值——工程上更稳定可控。"

业界之前也有类似尝试（Qwen post-training 提过 multi-stage 专家聚合，学术界一直有模型聚合、模型 Spawn 这类技术），但 DeepSeek 把它做到了 1.6T MoE 的工业规模。

6. RL 训练的全链路一致性

赵晨阳：1.6T MoE 全参数 RL 训练对系统要求很高——任何一环出错，奖励曲线就起不来：

六种并行策略（DP、TP、SP、EP、PP、CP）的正确性
训练与推理的一致性
indexer replay（任务被中断后回放历史执行轨迹或复用 KV 缓存恢复状态）
FP8 / BF16 混合采样

SGLang 在 V4 发布当天就支持了 RL 适配，对比之前"模型 2 月发布、5-6 月才有开源 RL 框架能跑起来"是一次显著加速。

国产芯片适配：V4 技术报告第三节"Infra"明确提到 DeepSeek 在华为昇腾芯片上验证了细粒度并行 EP 方案的技术可行性（原文："We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms."）。但 V4 训练阶段外界普遍推测仍用英伟达芯片。

7. 行业启示：模型版本号是"研究语言"还是"产品语言"？

赵晨阳的观察：DeepSeek 与 OpenAI / Anthropic 的版本号节奏完全不同——

派别	版本号语言	特征
DeepSeek、Kimi（研究语言）	大版本号 = 重大架构变化	7+ 个月才更新一次主版本，每次都对应深刻的工程换代
Claude、GPT（产品语言）	大版本号 = 能力 / 功能扩展	频繁更新，月级别迭代，让庞大用户群持续感知模型进步

这种差异由组织结构和商业模式决定：前者要求研究与产品节奏咬合，后者拥有更大自由度集中力量办大事，但每次出手要足够有分量。

刘益枫："这背后也反映两种倾向——中国的开源模型更追求工程优化；美国的闭源模型更追求提出和开辟新的能力方向。"

赵晨阳："美国 AI lab 更倾向先冲性能，反正模型贵也有人买，之后再考虑降成本。中国团队的强项是架构创新密度和工程完成度——V4 报告里一次性把混合稀疏注意力、mHC、Muon、FP4、TileLang 这么多事情全部换掉并跑通，这种决心和执行力很罕见。"

8. 内部使用与"消失的成本叙事"

内部 85 人调查：V4-Pro 能否作为日常编程默认？

52% 说可以
39% 倾向于可以
9% 不行（偶尔犯低级错误、对模糊指令容易误解、有时候想太多）

赵晨阳："公司内部的采用意愿非常重要。这也引出另一个问题——这世界上只有极少数公司在编程上有数据飞轮，而获取数据的最佳方式是被使用。"

不再公布训练成本——从"成本叙事"到"模型能力叙事"

R1 时代 DeepSeek 凭"557 万美元最后一次训练"引爆市场。V4 技术报告不再公布训练成本。两位嘉宾的解读：

赵晨阳："这是一个信号——DeepSeek 不再靠'成本叙事'定义自己，而是用模型能力说话。"
刘益枫："最后一次训练成本往往是总成本的几十分之一。前沿探索和对比验证的实验成本、人力和数据成本才是主要开支。所以公布这个成本本身没太大意义。"

V4 训练计算量按参数量与训练数据量粗略估算可能接近 V3 的 3 倍。