Skip to content
Back/AI Ecosystem

Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

View in Graph
Updated 2026-06-03
2 min read
459 words

Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化

Qwen 3.6 在 DeepSeek V4 同周悄然发布,27B 版本在 Artificial Analysis Agentic Index 上与 Sonnet 4.6 持平,超越 Gemini 3.1 Pro Preview、GPT 5.2/5.3、MiniMax 2.7。Reddit 本地社区出现"BEAST"级评价。

Qwen 3.7-Plus(2026-06-02)进一步扩展为多模态交互混合 agent,统一 GUI 和 CLI 操作、视觉推理、编码和搜索增强 QA,已被 Cline 等工具快速集成。这标志亚洲开放实验室不再只发布"聊天模型",而是发布完整的 agent 级多模态系统。


核心数据

Artificial Analysis Agentic Index

模型 Agentic Index 备注
Sonnet 4.6 闭源前沿
Qwen 3.6 27B ≈ Sonnet 4.6 与 Sonnet 持平
Gemini 3.1 Pro Preview < Qwen 3.6 27B 被 Qwen 超越
GPT 5.2 / 5.3 < Qwen 3.6 27B 被 Qwen 超越
MiniMax 2.7 < Qwen 3.6 27B 被 Qwen 超越

Coding Index

提升较小,依赖 Terminal Bench Hard 与 SciCode 等非常规基准。Velocita84 警告可能存在 "benchmaxxing"。

模型版本

版本 总参 备注
Qwen 3.6 27B 27B 主流推荐版本
Qwen 3.6 35B-A3B 35B / 3B 激活 速度优先
Qwen 3.6 122B 122B 即将发布,社区高度期待

重要差异化能力:1M 上下文(与 V4 系列对齐,但更轻量)


与 DeepSeek V4 Flash 的对比

@DS4-Flash vs Qwen3.6 Reddit 讨论:

  • DS4-Flash Max(284B)整体击败 Qwen3.6 35B-A3B 与 27B
  • 尤其在 LiveCodeBench 与 HLE 上
  • 但 DS4-Flash 是 284B 而 Qwen 27B —— 效率比悬殊
  • 1M 上下文是 Qwen 3.6 的关键差异化能力

本地部署详情

Apple Silicon

@julien_c:在 MacBook Pro 上通过 llama.cpp 跑 Qwen3.6-27B,对许多编码任务"接近最新 Opus"。

NVIDIA 双卡

Iory1998(Reddit):Q8 量化在 RTX 3090 + RTX 5070ti(40GB 总 VRAM)上运行 170K 上下文 KV cache (FP16)

单卡 5090 + 64GB DDR5

"Qwen 3.6 27B 是 BEAST"(Activity 1239):

  • RTX 5090 (24GB VRAM) + 64GB DDR5 笔记本
  • q4_k_m 量化
  • pyspark / python 与数据转换调试
  • sagiroth 警告:编码任务别用 q4 KV cache,q8 才能稳跑 130k 上下文
  • inkberk:llama.cpp PR #22105 + z-lab 即将发布的 dflash drafter 可能将解码速度提升 2×

35B vs 27B 编码原语对比

64GB RAM MacBook Pro M5 MAX 上:

  • 35B:72 TPS
  • 27B:18 TPS
  • 27B 慢但代码更精确(生成单文件 HTML 视差移动汽车,质量明显高于 35B)

来源 Atomic.Chat 已开源。

多卡服务建议

@QuixiAI 提醒:llama.cpp / Ollama / LM Studio 不支持 tensor parallel,多卡正经服务推荐 vLLM。


"BEAST" 反应背后的争议

社区有声音提醒不要把 Qwen3.6-27B 与 Sonnet/Opus 同等对待——过度炒作可能引发对整个 LLM 社区的反弹。Melodic_Reality_646 指出:

"测试用了 128GB RAM 的 m5max——并非普通用户配置。"

Agentic Index 的"持平 Sonnet"是基准位置,不等同于全场景体验。


战略意义

  1. 本地 27B 进入"接近前沿"区间:Qwen 3.6 27B 第一次让 27B 在严肃 agentic 基准上达到 Sonnet 4.6 级别——这在一年前是不可想象的
  2. 效率比 vs 绝对性能的取舍:相比 V4 Flash 284B,27B 的部署门槛低一个数量级
  3. 本地讨论从"能不能跑"转向"如何最优部署":q4 vs q8 KV cache、tensor parallel、KV cache 量化策略成为主话题
  4. 1M 上下文成为开放权重新基线:V4、Qwen 3.6、即将到来的 Qwen 3.6 122B 都对齐到 1M

Open questions

  • "持平 Sonnet 4.6 on Agentic Index"是真实质变还是 benchmaxxing?需要等独立第三方在生产场景验证
  • Qwen 3.6 122B 何时发布?与 V4 Pro 对位关系如何?
  • 中国开放权重在 Agent 维度的全面跃升,对 蒸馏争议 的"基准抓取 vs 架构创新"之争提供什么实证?
  • 本地 Q4/Q8 KV cache 量化策略的最佳实践是否能形成社区标准?


Sources

Synthesized from 3 sources
  • AINews 2026-04-25 DeepSeek V4 Pro and Flash on Huawei AscendSupporting source listed by this page.Whole pagemediumbody
  • 2026-06-03-00-07Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX SparkSupporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 3 sources.

    From AINews 2026-04-25 DeepSeek V4 Pro and Flash on Huawei Ascend, 2026-06-03-00-07, 2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX SparkTo Qwen 3.6/3.7 — Agentic Index 跃升与本地部署主流化
    Sources: raw/newsletters/AINews/2026-04-25 DeepSeek V4 Pro and Flash on Huawei Ascend.md · raw/briefing/AI Briefing/2026-06-03-00-07.md · raw/newsletters/AINews/2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX Spark.md

Linked from