Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化
Qwen 3.6 在 DeepSeek V4 同周悄然发布,27B 版本在 Artificial Analysis Agentic Index 上与 Sonnet 4.6 持平,超越 Gemini 3.1 Pro Preview、GPT 5.2/5.3、MiniMax 2.7。Reddit 本地社区出现"BEAST"级评价。
Qwen 3.7-Plus(2026-06-02)进一步扩展为多模态交互混合 agent,统一 GUI 和 CLI 操作、视觉推理、编码和搜索增强 QA,已被 Cline 等工具快速集成。这标志亚洲开放实验室不再只发布"聊天模型",而是发布完整的 agent 级多模态系统。
核心数据
Artificial Analysis Agentic Index
| 模型 | Agentic Index | 备注 |
|---|---|---|
| Sonnet 4.6 | — | 闭源前沿 |
| Qwen 3.6 27B | ≈ Sonnet 4.6 | 与 Sonnet 持平 |
| Gemini 3.1 Pro Preview | < Qwen 3.6 27B | 被 Qwen 超越 |
| GPT 5.2 / 5.3 | < Qwen 3.6 27B | 被 Qwen 超越 |
| MiniMax 2.7 | < Qwen 3.6 27B | 被 Qwen 超越 |
Coding Index
提升较小,依赖 Terminal Bench Hard 与 SciCode 等非常规基准。Velocita84 警告可能存在 "benchmaxxing"。
模型版本
| 版本 | 总参 | 备注 |
|---|---|---|
| Qwen 3.6 27B | 27B | 主流推荐版本 |
| Qwen 3.6 35B-A3B | 35B / 3B 激活 | 速度优先 |
| Qwen 3.6 122B | 122B | 即将发布,社区高度期待 |
重要差异化能力:1M 上下文(与 V4 系列对齐,但更轻量)
与 DeepSeek V4 Flash 的对比
@DS4-Flash vs Qwen3.6 Reddit 讨论:
- DS4-Flash Max(284B)整体击败 Qwen3.6 35B-A3B 与 27B
- 尤其在 LiveCodeBench 与 HLE 上
- 但 DS4-Flash 是 284B 而 Qwen 27B —— 效率比悬殊
- 1M 上下文是 Qwen 3.6 的关键差异化能力
本地部署详情
Apple Silicon
@julien_c:在 MacBook Pro 上通过 llama.cpp 跑 Qwen3.6-27B,对许多编码任务"接近最新 Opus"。
NVIDIA 双卡
Iory1998(Reddit):Q8 量化在 RTX 3090 + RTX 5070ti(40GB 总 VRAM)上运行 170K 上下文 KV cache (FP16)。
单卡 5090 + 64GB DDR5
"Qwen 3.6 27B 是 BEAST"(Activity 1239):
- RTX 5090 (24GB VRAM) + 64GB DDR5 笔记本
- q4_k_m 量化
- pyspark / python 与数据转换调试
- sagiroth 警告:编码任务别用 q4 KV cache,q8 才能稳跑 130k 上下文
- inkberk:llama.cpp PR #22105 + z-lab 即将发布的 dflash drafter 可能将解码速度提升 2×
35B vs 27B 编码原语对比
64GB RAM MacBook Pro M5 MAX 上:
- 35B:72 TPS
- 27B:18 TPS
- 27B 慢但代码更精确(生成单文件 HTML 视差移动汽车,质量明显高于 35B)
来源 Atomic.Chat 已开源。
多卡服务建议
@QuixiAI 提醒:llama.cpp / Ollama / LM Studio 不支持 tensor parallel,多卡正经服务推荐 vLLM。
"BEAST" 反应背后的争议
社区有声音提醒不要把 Qwen3.6-27B 与 Sonnet/Opus 同等对待——过度炒作可能引发对整个 LLM 社区的反弹。Melodic_Reality_646 指出:
"测试用了 128GB RAM 的 m5max——并非普通用户配置。"
Agentic Index 的"持平 Sonnet"是基准位置,不等同于全场景体验。
战略意义
- 本地 27B 进入"接近前沿"区间:Qwen 3.6 27B 第一次让 27B 在严肃 agentic 基准上达到 Sonnet 4.6 级别——这在一年前是不可想象的
- 效率比 vs 绝对性能的取舍:相比 V4 Flash 284B,27B 的部署门槛低一个数量级
- 本地讨论从"能不能跑"转向"如何最优部署":q4 vs q8 KV cache、tensor parallel、KV cache 量化策略成为主话题
- 1M 上下文成为开放权重新基线:V4、Qwen 3.6、即将到来的 Qwen 3.6 122B 都对齐到 1M
Open questions
- "持平 Sonnet 4.6 on Agentic Index"是真实质变还是 benchmaxxing?需要等独立第三方在生产场景验证
- Qwen 3.6 122B 何时发布?与 V4 Pro 对位关系如何?
- 中国开放权重在 Agent 维度的全面跃升,对 蒸馏争议 的"基准抓取 vs 架构创新"之争提供什么实证?
- 本地 Q4/Q8 KV cache 量化策略的最佳实践是否能形成社区标准?