MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程

MiniMax 是中国首批公开宣称"自进化"能力的实验室之一。M2.7（2026-03）和 M3（2026-06）连续两代在 agentic 基准上达到与 Sonnet 4.6 持平或超越的水平。

M2.7（2026-03-19）

性能数据

指标	数值
SWE-Pro	56.22%
Terminal Bench 2	57.0%
40+ 技能遵从率	97%
OpenClaw 表现	与 Sonnet 4.6 持平

成本效率（Artificial Analysis）

Intelligence Index: 50（与 GLM-5 持平）
价格: $0.30/$1.20 per 1M input/output tokens
成本优势: 不到 GLM-5 成本的 1/3
GDPval-AA Elo: 1494（超过 MiMo-V2-Pro 1426、GLM-5 1406、Kimi K2.5 1283）
幻觉率: 较 M2.5 大幅降低

即时分发: Ollama、Trae、OpenRouter、Vercel、opencode、kilocode 等同步上线

自进化能力详解

什么是"自进化"

M2.7 内部 harness 支持递归改进：

收集反馈
构建 eval 集
迭代 skills/MCP/记忆/架构

与传统模型的区别

传统模型	自进化模型
固定训练后部署	部署后持续自我改进
依赖人工标注反馈	自主收集和分析反馈
静态技能集	动态迭代技能和工具

Agent Harness 工程趋势

核心观点

瓶颈已不是基础模型，而是周围的执行环境。

The Turing Post 采访 Michael Bolin：编程 Agent 问题本质是工具、代码库可读性、约束和反馈循环 —— 即 harness engineering
GPT-5.4 mini 的意义：廉价快速的子 Agent 改变了"值得委派什么"的边界

Skills 成为跨 Agent 栈的共享抽象

实际使用模式：

渐进式披露
追踪检查
会话蒸馏
CI 触发 skills
自我改进 skills

Anthropic Claude Code 官方澄清：

Skill 不只是文本片段，而是包含脚本/资产/数据的文件夹，描述字段应说明何时触发

通过 MCP resources 分发 skills 可能解决版本管理问题。

开放 Agent 栈收敛

Harrison Chase 的框架分析：Claude Code、OpenClaw、Manus 等都是同一分解方式：

开放 Agent 栈 = open model + runtime + harness

相关基础设施发布:

LangSmith Sandboxes：安全代码执行
LangSmith Polly GA：产品内调试/改进助手
Google Colab MCP server：本地 Agent 驱动 Colab GPU 运行时

MCP 动态

立场	观点
✅ Google Gemini API	支持内置工具 + 自定义函数在同一次调用中
❌ skirano	"MCP 是个错误，CLI 万岁"
😄 denisyarats	调侃 "model cli protocol"

架构与基础设施创新

Attention Residual — 模型-系统协同设计

Kimi/Moonshot 的 AttnRes 工作被解读为跨模型研究和基础设施的协同设计：

垂直注意力（跨层注意力）概念
每层查询前一层状态
有效将注意力从水平序列交互扩展到层间记忆
层数 << 序列长度
几乎不增加额外延迟

Mamba-3 发布

作者：@_albertgu 和 @tri_dao

核心主张:

明确专注于推理效率，而非完全替代 transformer
MIMO 变体
在相似解码速度下提升模型强度
1.5B 参数下最强的线性模型性能
最快的 prefill+decode

适用场景:

推理密集型 RL
长 rollout 工作负载

共同启示: 实验室仍在寻找放松完整 transformer 瓶颈的方法，同时不过多牺牲生态系统兼容性。

关键洞察

自进化是下一个重大步骤 — MiniMax 是中国首批公开宣称这一能力的实验室之一
Harness 工程成为差异化因素 — 模型能力趋于收敛，执行环境和工具生态成为关键
子 Agent 改变委派边界 — 廉价快速的小模型让"什么值得自动化"的边界不断扩展
Skills 成为可移植资产 — 跨 Agent 平台的技能共享正在形成共识

关联

ai-ecosystem/overview — AI 生态系统概述
ai-ecosystem/the-rundown-2026-03-19 — The Rundown 同期报道（Google Vibe Design）
harness-engineering/overview — Harness Engineering 综述
harness-engineering/skills-into-loops — Skills 与反馈循环
product-trends/openclaw-getting-started — OpenClaw 生态

M3（2026-06-02）

M3 定位为开放权重的多模态 agent/编码模型，1M 上下文窗口，原生多模态能力。

核心指标

指标	数值
SWE-Bench Pro	59.0%
Terminal Bench 2.1	66.0%
MCP Atlas	74.2%
上下文窗口	1M（保证最低 512K）

争议

"开放权重"声明与实际落差：参数量和实际权重尚未公开，社区持谨慎态度
高 token 消耗与冗长自我检查：多个评测者报告长任务上的需求漂移
生态采用极快：Novita、Vercel AI Gateway、Cloudflare AI Gateway 等均 day-0 支持

MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程

MiniMax M2.7/M3 — 自进化模型与 Agent Harness 工程

M2.7（2026-03-19）

性能数据

成本效率（Artificial Analysis）

自进化能力详解

什么是"自进化"

与传统模型的区别

Agent Harness 工程趋势

核心观点

Skills 成为跨 Agent 栈的共享抽象

开放 Agent 栈收敛

MCP 动态

架构与基础设施创新

Attention Residual — 模型-系统协同设计

Mamba-3 发布

关键洞察

关联

M3（2026-06-02）

核心指标

争议

Sources

Evolution

Derived from source material

Linked from