Skip to content
Back/AI Ecosystem

MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程

View in Graph
Updated 2026-06-03
2 min read
439 words

MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程

MiniMax 是中国首批公开宣称"自进化"能力的实验室之一。M2.7(2026-03)和 M3(2026-06)连续两代在 agentic 基准上达到与 Sonnet 4.6 持平或超越的水平。

M2.7(2026-03-19)

性能数据

指标 数值
SWE-Pro 56.22%
Terminal Bench 2 57.0%
40+ 技能遵从率 97%
OpenClaw 表现 与 Sonnet 4.6 持平

成本效率(Artificial Analysis)

  • Intelligence Index: 50(与 GLM-5 持平)
  • 价格: $0.30/$1.20 per 1M input/output tokens
  • 成本优势: 不到 GLM-5 成本的 1/3
  • GDPval-AA Elo: 1494(超过 MiMo-V2-Pro 1426、GLM-5 1406、Kimi K2.5 1283)
  • 幻觉率: 较 M2.5 大幅降低

即时分发: Ollama、Trae、OpenRouter、Vercel、opencode、kilocode 等同步上线


自进化能力详解

什么是"自进化"

M2.7 内部 harness 支持递归改进:

  1. 收集反馈
  2. 构建 eval 集
  3. 迭代 skills/MCP/记忆/架构

与传统模型的区别

传统模型 自进化模型
固定训练后部署 部署后持续自我改进
依赖人工标注反馈 自主收集和分析反馈
静态技能集 动态迭代技能和工具

Agent Harness 工程趋势

核心观点

瓶颈已不是基础模型,而是周围的执行环境。

  • The Turing Post 采访 Michael Bolin:编程 Agent 问题本质是工具、代码库可读性、约束和反馈循环 —— 即 harness engineering
  • GPT-5.4 mini 的意义:廉价快速的子 Agent 改变了"值得委派什么"的边界

Skills 成为跨 Agent 栈的共享抽象

实际使用模式:

  • 渐进式披露
  • 追踪检查
  • 会话蒸馏
  • CI 触发 skills
  • 自我改进 skills

Anthropic Claude Code 官方澄清:

Skill 不只是文本片段,而是包含脚本/资产/数据的文件夹,描述字段应说明何时触发

通过 MCP resources 分发 skills 可能解决版本管理问题。

开放 Agent 栈收敛

Harrison Chase 的框架分析:Claude Code、OpenClaw、Manus 等都是同一分解方式:

开放 Agent 栈 = open model + runtime + harness

相关基础设施发布:

  • LangSmith Sandboxes:安全代码执行
  • LangSmith Polly GA:产品内调试/改进助手
  • Google Colab MCP server:本地 Agent 驱动 Colab GPU 运行时

MCP 动态

立场 观点
✅ Google Gemini API 支持内置工具 + 自定义函数在同一次调用中
❌ skirano "MCP 是个错误,CLI 万岁"
😄 denisyarats 调侃 "model cli protocol"

架构与基础设施创新

Attention Residual — 模型-系统协同设计

Kimi/Moonshot 的 AttnRes 工作被解读为跨模型研究和基础设施的协同设计:

  • 垂直注意力(跨层注意力)概念
  • 每层查询前一层状态
  • 有效将注意力从水平序列交互扩展到层间记忆
  • 层数 << 序列长度
  • 几乎不增加额外延迟

Mamba-3 发布

作者:@_albertgu 和 @tri_dao

核心主张:

  • 明确专注于推理效率,而非完全替代 transformer
  • MIMO 变体
  • 在相似解码速度下提升模型强度
  • 1.5B 参数下最强的线性模型性能
  • 最快的 prefill+decode

适用场景:

  • 推理密集型 RL
  • 长 rollout 工作负载

共同启示: 实验室仍在寻找放松完整 transformer 瓶颈的方法,同时不过多牺牲生态系统兼容性。


关键洞察

  1. 自进化是下一个重大步骤 — MiniMax 是中国首批公开宣称这一能力的实验室之一
  2. Harness 工程成为差异化因素 — 模型能力趋于收敛,执行环境和工具生态成为关键
  3. 子 Agent 改变委派边界 — 廉价快速的小模型让"什么值得自动化"的边界不断扩展
  4. Skills 成为可移植资产 — 跨 Agent 平台的技能共享正在形成共识

关联


M3(2026-06-02)

M3 定位为开放权重的多模态 agent/编码模型,1M 上下文窗口,原生多模态能力。

核心指标

指标 数值
SWE-Bench Pro 59.0%
Terminal Bench 2.1 66.0%
MCP Atlas 74.2%
上下文窗口 1M(保证最低 512K)

争议

  • "开放权重"声明与实际落差:参数量和实际权重尚未公开,社区持谨慎态度
  • 高 token 消耗与冗长自我检查:多个评测者报告长任务上的需求漂移
  • 生态采用极快:Novita、Vercel AI Gateway、Cloudflare AI Gateway 等均 day-0 支持

Sources

Synthesized from 4 sources
  • 2026-03-19 MiniMax 2.7 自进化模型Supporting source listed by this page.Whole pagemediumbody
  • 2026-03-20 各大实验室争相收购开发者工具Supporting source listed by this page.Whole pagemediumbody
  • 2026-06-03-00-07Supporting source listed by this page.Whole pagemediumabsorb log
  • 2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX SparkSupporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 4 sources.

    From 2026-03-19 MiniMax 2.7 自进化模型, 2026-03-20 各大实验室争相收购开发者工具, 2026-06-03-00-07, 2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX SparkTo MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程
    Sources: raw/to-learn/newsletters/ainews/2026-03-19 MiniMax 2.7 自进化模型.md · raw/to-learn/newsletters/ainews/2026-03-20 各大实验室争相收购开发者工具.md · raw/briefing/AI Briefing/2026-06-03-00-07.md · raw/newsletters/AINews/2026-06-02 [AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra, and RTX Spark.md

Linked from