Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

Qwen 3.6 在 DeepSeek V4 同周悄然发布，27B 版本在 Artificial Analysis Agentic Index 上与 Sonnet 4.6 持平，超越 Gemini 3.1 Pro Preview、GPT 5.2/5.3、MiniMax 2.7。Reddit 本地社区出现"BEAST"级评价。

Qwen 3.7-Plus（2026-06-02）进一步扩展为多模态交互混合 agent，统一 GUI 和 CLI 操作、视觉推理、编码和搜索增强 QA，已被 Cline 等工具快速集成。这标志亚洲开放实验室不再只发布"聊天模型"，而是发布完整的 agent 级多模态系统。

核心数据

Artificial Analysis Agentic Index

模型	Agentic Index	备注
Sonnet 4.6	—	闭源前沿
Qwen 3.6 27B	≈ Sonnet 4.6	与 Sonnet 持平
Gemini 3.1 Pro Preview	< Qwen 3.6 27B	被 Qwen 超越
GPT 5.2 / 5.3	< Qwen 3.6 27B	被 Qwen 超越
MiniMax 2.7	< Qwen 3.6 27B	被 Qwen 超越

Coding Index

提升较小，依赖 Terminal Bench Hard 与 SciCode 等非常规基准。Velocita84 警告可能存在 "benchmaxxing"。

模型版本

版本	总参	备注
Qwen 3.6 27B	27B	主流推荐版本
Qwen 3.6 35B-A3B	35B / 3B 激活	速度优先
Qwen 3.6 122B	122B	即将发布，社区高度期待

重要差异化能力：1M 上下文（与 V4 系列对齐，但更轻量）

与 DeepSeek V4 Flash 的对比

@DS4-Flash vs Qwen3.6 Reddit 讨论：

DS4-Flash Max（284B）整体击败 Qwen3.6 35B-A3B 与 27B
尤其在 LiveCodeBench 与 HLE 上
但 DS4-Flash 是 284B 而 Qwen 27B —— 效率比悬殊
1M 上下文是 Qwen 3.6 的关键差异化能力

本地部署详情

Apple Silicon

@julien_c：在 MacBook Pro 上通过 llama.cpp 跑 Qwen3.6-27B，对许多编码任务"接近最新 Opus"。

NVIDIA 双卡

Iory1998（Reddit）：Q8 量化在 RTX 3090 + RTX 5070ti（40GB 总 VRAM）上运行 170K 上下文 KV cache (FP16)。

单卡 5090 + 64GB DDR5

"Qwen 3.6 27B 是 BEAST"（Activity 1239）：

RTX 5090 (24GB VRAM) + 64GB DDR5 笔记本
q4_k_m 量化
pyspark / python 与数据转换调试
sagiroth 警告：编码任务别用 q4 KV cache，q8 才能稳跑 130k 上下文
inkberk：llama.cpp PR #22105 + z-lab 即将发布的 dflash drafter 可能将解码速度提升 2×

35B vs 27B 编码原语对比

64GB RAM MacBook Pro M5 MAX 上：

35B：72 TPS
27B：18 TPS
27B 慢但代码更精确（生成单文件 HTML 视差移动汽车，质量明显高于 35B）

来源 Atomic.Chat 已开源。

多卡服务建议

@QuixiAI 提醒：llama.cpp / Ollama / LM Studio 不支持 tensor parallel，多卡正经服务推荐 vLLM。

"BEAST" 反应背后的争议

社区有声音提醒不要把 Qwen3.6-27B 与 Sonnet/Opus 同等对待——过度炒作可能引发对整个 LLM 社区的反弹。Melodic_Reality_646 指出：

"测试用了 128GB RAM 的 m5max——并非普通用户配置。"

Agentic Index 的"持平 Sonnet"是基准位置，不等同于全场景体验。

战略意义

本地 27B 进入"接近前沿"区间：Qwen 3.6 27B 第一次让 27B 在严肃 agentic 基准上达到 Sonnet 4.6 级别——这在一年前是不可想象的
效率比 vs 绝对性能的取舍：相比 V4 Flash 284B，27B 的部署门槛低一个数量级
本地讨论从"能不能跑"转向"如何最优部署"：q4 vs q8 KV cache、tensor parallel、KV cache 量化策略成为主话题
1M 上下文成为开放权重新基线：V4、Qwen 3.6、即将到来的 Qwen 3.6 122B 都对齐到 1M

Open questions

"持平 Sonnet 4.6 on Agentic Index"是真实质变还是 benchmaxxing？需要等独立第三方在生产场景验证
Qwen 3.6 122B 何时发布？与 V4 Pro 对位关系如何？
中国开放权重在 Agent 维度的全面跃升，对蒸馏争议的"基准抓取 vs 架构创新"之争提供什么实证？
本地 Q4/Q8 KV cache 量化策略的最佳实践是否能形成社区标准？

Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

核心数据

Artificial Analysis Agentic Index

Coding Index

模型版本

与 DeepSeek V4 Flash 的对比

本地部署详情

Apple Silicon

NVIDIA 双卡

单卡 5090 + 64GB DDR5

35B vs 27B 编码原语对比

多卡服务建议

"BEAST" 反应背后的争议

战略意义

Open questions

Sources

Evolution

Derived from source material

Linked from

Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

核心数据

Artificial Analysis Agentic Index

Coding Index

模型版本

与 DeepSeek V4 Flash 的对比

本地部署详情

Apple Silicon

NVIDIA 双卡

单卡 5090 + 64GB DDR5

35B vs 27B 编码原语对比

多卡服务建议

"BEAST" 反应背后的争议

战略意义

Open questions

Related

Sources

Evolution

Derived from source material

Linked from