Back/harness engineering

量化技术大战:TurboQuant vs RotorQuant

Updated 2026-04-11
2 min read
251 words

量化技术大战:TurboQuant vs RotorQuant

TurboQuant 的工程突破与争议

突破

  • @iotcoi 发布 TurboQuant vLLM fork:Qwen3.5-35B AWQ,支持 1M 上下文 + 4M KV 缓存
  • 在 llama.cpp 中跳过 90% 的 KV dequant 工作 → 32K 上下文解码速度提升 22.8%(M5 Max 实测)
  • 3 行内核代码修改,无需 SIMD 或 fused kernel,利用注意力稀疏性跳过无关计算

争议

  • @gaoj0017 指控 Google 的 ICLR 2026 TurboQuant 论文错误表示了 RaBitQ,包括不公平的 CPU vs GPU 对比
  • 这不否定 TurboQuant 的工程价值,但质疑了部分公开比较结论

社区数据(r/LocalLlama)

  • "TurboQuant running Qwen on MacAir" 帖子活跃度:433
  • "Skipping 90% of KV dequant work → +22.8% decode" 帖子活跃度:744
  • "TurboQuant benchmarks in llama.cpp" 帖子活跃度:463

RotorQuant:Clifford 代数的跨界创新

核心指标

  • 比 TurboQuant 快 10–19 倍,参数少 44 倍
  • 用 Clifford rotors 替代 d×d 随机正交矩阵:计算量从 16,384 FMAs → 约 100 FMAs(d=128)
  • 余弦相似度 0.990(vs TurboQuant 的 0.991),实际性能几乎相同

技术争论

  • TurboQuant 的全局随机旋转(Haar)可在所有维度均匀分散能量,RotorQuant 的 3D 块混合无法复制此效果
  • 但 RotorQuant 在 KV 缓存分布上的实际表现仍然出色——速度/质量权衡对真实模型有实用价值

Reddit 活跃度

652("RotorQuant: 10-19x faster alternative via Clifford rotors")

技术对比

特性 TurboQuant RotorQuant
速度提升 22.8% 解码速度 10-19x
参数量 标准 少 44 倍
核心技术 Walsh-Hadamard 旋转 Clifford rotors
相似度保持 0.990
能量分散 全局均匀 3D 块混合

关联

来源

Linked from