量化技术大战:TurboQuant vs RotorQuant
TurboQuant 的工程突破与争议
突破
- @iotcoi 发布 TurboQuant vLLM fork:Qwen3.5-35B AWQ,支持 1M 上下文 + 4M KV 缓存
- 在 llama.cpp 中跳过 90% 的 KV dequant 工作 → 32K 上下文解码速度提升 22.8%(M5 Max 实测)
- 3 行内核代码修改,无需 SIMD 或 fused kernel,利用注意力稀疏性跳过无关计算
争议
- @gaoj0017 指控 Google 的 ICLR 2026 TurboQuant 论文错误表示了 RaBitQ,包括不公平的 CPU vs GPU 对比
- 这不否定 TurboQuant 的工程价值,但质疑了部分公开比较结论
社区数据(r/LocalLlama)
- "TurboQuant running Qwen on MacAir" 帖子活跃度:433
- "Skipping 90% of KV dequant work → +22.8% decode" 帖子活跃度:744
- "TurboQuant benchmarks in llama.cpp" 帖子活跃度:463
RotorQuant:Clifford 代数的跨界创新
核心指标
- 比 TurboQuant 快 10–19 倍,参数少 44 倍
- 用 Clifford rotors 替代 d×d 随机正交矩阵:计算量从 16,384 FMAs → 约 100 FMAs(d=128)
- 余弦相似度 0.990(vs TurboQuant 的 0.991),实际性能几乎相同
技术争论
- TurboQuant 的全局随机旋转(Haar)可在所有维度均匀分散能量,RotorQuant 的 3D 块混合无法复制此效果
- 但 RotorQuant 在 KV 缓存分布上的实际表现仍然出色——速度/质量权衡对真实模型有实用价值
Reddit 活跃度
652("RotorQuant: 10-19x faster alternative via Clifford rotors")
技术对比
| 特性 | TurboQuant | RotorQuant |
|---|---|---|
| 速度提升 | 22.8% 解码速度 | 10-19x |
| 参数量 | 标准 | 少 44 倍 |
| 核心技术 | Walsh-Hadamard 旋转 | Clifford rotors |
| 相似度保持 | 高 | 0.990 |
| 能量分散 | 全局均匀 | 3D 块混合 |
关联
- harness-engineering/overview — Harness Engineering 概述
- ai-ecosystem/gemma-4 — 本地推理优化
- claude-code/overview — Claude Code 性能优化
来源
- 2026-03-28 H100 prices are melting UP — TurboQuant 与 RotorQuant 技术对比
- 2026-04-02 A quiet April Fools — TurboQuant 对 Qwen3.5-27B 的量化效果