Back/harness engineering

量化技术大战：TurboQuant vs RotorQuant

Updated 2026-04-11

2 min read

251 words

量化技术大战：TurboQuant vs RotorQuant

TurboQuant 的工程突破与争议

突破

@iotcoi 发布 TurboQuant vLLM fork：Qwen3.5-35B AWQ，支持 1M 上下文 + 4M KV 缓存
在 llama.cpp 中跳过 90% 的 KV dequant 工作 → 32K 上下文解码速度提升 22.8%（M5 Max 实测）
3 行内核代码修改，无需 SIMD 或 fused kernel，利用注意力稀疏性跳过无关计算

争议

@gaoj0017 指控 Google 的 ICLR 2026 TurboQuant 论文错误表示了 RaBitQ，包括不公平的 CPU vs GPU 对比
这不否定 TurboQuant 的工程价值，但质疑了部分公开比较结论

社区数据（r/LocalLlama）

"TurboQuant running Qwen on MacAir" 帖子活跃度：433
"Skipping 90% of KV dequant work → +22.8% decode" 帖子活跃度：744
"TurboQuant benchmarks in llama.cpp" 帖子活跃度：463

RotorQuant：Clifford 代数的跨界创新

核心指标

比 TurboQuant 快 10–19 倍，参数少 44 倍
用 Clifford rotors 替代 d×d 随机正交矩阵：计算量从 16,384 FMAs → 约 100 FMAs（d=128）
余弦相似度 0.990（vs TurboQuant 的 0.991），实际性能几乎相同

技术争论

TurboQuant 的全局随机旋转（Haar）可在所有维度均匀分散能量，RotorQuant 的 3D 块混合无法复制此效果
但 RotorQuant 在 KV 缓存分布上的实际表现仍然出色——速度/质量权衡对真实模型有实用价值

Reddit 活跃度

652（"RotorQuant: 10-19x faster alternative via Clifford rotors"）

技术对比

特性	TurboQuant	RotorQuant
速度提升	22.8% 解码速度	10-19x
参数量	标准	少 44 倍
核心技术	Walsh-Hadamard 旋转	Clifford rotors
相似度保持	高	0.990
能量分散	全局均匀	3D 块混合

关联

harness-engineering/overview — Harness Engineering 概述
ai-ecosystem/gemma-4 — 本地推理优化
claude-code/overview — Claude Code 性能优化

来源

2026-03-28 H100 prices are melting UP — TurboQuant 与 RotorQuant 技术对比
2026-04-02 A quiet April Fools — TurboQuant 对 Qwen3.5-27B 的量化效果

Linked from

Harness Engineering — Overview