MiniMax M2.7 — 自进化模型与 Agent Harness 工程
来源:AINews / Latent Space,2026-03-19
核心亮点
MiniMax M2.7 定位是**"首个深度参与自身进化的模型"**,在 SWE-Pro 和 Terminal Bench 2 基准测试中达到与 Sonnet 4.6 在 OpenClaw 上持平的表现。
性能数据
| 指标 | 数值 |
|---|---|
| SWE-Pro | 56.22% |
| Terminal Bench 2 | 57.0% |
| 40+ 技能遵从率 | 97% |
| OpenClaw 表现 | 与 Sonnet 4.6 持平 |
成本效率(Artificial Analysis)
- Intelligence Index: 50(与 GLM-5 持平)
- 价格: $0.30/$1.20 per 1M input/output tokens
- 成本优势: 不到 GLM-5 成本的 1/3
- GDPval-AA Elo: 1494(超过 MiMo-V2-Pro 1426、GLM-5 1406、Kimi K2.5 1283)
- 幻觉率: 较 M2.5 大幅降低
即时分发: Ollama、Trae、OpenRouter、Vercel、opencode、kilocode 等同步上线
自进化能力详解
什么是"自进化"
M2.7 内部 harness 支持递归改进:
- 收集反馈
- 构建 eval 集
- 迭代 skills/MCP/记忆/架构
与传统模型的区别
| 传统模型 | 自进化模型 |
|---|---|
| 固定训练后部署 | 部署后持续自我改进 |
| 依赖人工标注反馈 | 自主收集和分析反馈 |
| 静态技能集 | 动态迭代技能和工具 |
Agent Harness 工程趋势
核心观点
瓶颈已不是基础模型,而是周围的执行环境。
- The Turing Post 采访 Michael Bolin:编程 Agent 问题本质是工具、代码库可读性、约束和反馈循环 —— 即 harness engineering
- GPT-5.4 mini 的意义:廉价快速的子 Agent 改变了"值得委派什么"的边界
Skills 成为跨 Agent 栈的共享抽象
实际使用模式:
- 渐进式披露
- 追踪检查
- 会话蒸馏
- CI 触发 skills
- 自我改进 skills
Anthropic Claude Code 官方澄清:
Skill 不只是文本片段,而是包含脚本/资产/数据的文件夹,描述字段应说明何时触发
通过 MCP resources 分发 skills 可能解决版本管理问题。
开放 Agent 栈收敛
Harrison Chase 的框架分析:Claude Code、OpenClaw、Manus 等都是同一分解方式:
开放 Agent 栈 = open model + runtime + harness
相关基础设施发布:
- LangSmith Sandboxes:安全代码执行
- LangSmith Polly GA:产品内调试/改进助手
- Google Colab MCP server:本地 Agent 驱动 Colab GPU 运行时
MCP 动态
| 立场 | 观点 |
|---|---|
| ✅ Google Gemini API | 支持内置工具 + 自定义函数在同一次调用中 |
| ❌ skirano | "MCP 是个错误,CLI 万岁" |
| 😄 denisyarats | 调侃 "model cli protocol" |
架构与基础设施创新
Attention Residual — 模型-系统协同设计
Kimi/Moonshot 的 AttnRes 工作被解读为跨模型研究和基础设施的协同设计:
- 垂直注意力(跨层注意力)概念
- 每层查询前一层状态
- 有效将注意力从水平序列交互扩展到层间记忆
- 层数 << 序列长度
- 几乎不增加额外延迟
Mamba-3 发布
作者:@_albertgu 和 @tri_dao
核心主张:
- 明确专注于推理效率,而非完全替代 transformer
- MIMO 变体
- 在相似解码速度下提升模型强度
- 1.5B 参数下最强的线性模型性能
- 最快的 prefill+decode
适用场景:
- 推理密集型 RL
- 长 rollout 工作负载
共同启示: 实验室仍在寻找放松完整 transformer 瓶颈的方法,同时不过多牺牲生态系统兼容性。
关键洞察
- 自进化是下一个重大步骤 — MiniMax 是中国首批公开宣称这一能力的实验室之一
- Harness 工程成为差异化因素 — 模型能力趋于收敛,执行环境和工具生态成为关键
- 子 Agent 改变委派边界 — 廉价快速的小模型让"什么值得自动化"的边界不断扩展
- Skills 成为可移植资产 — 跨 Agent 平台的技能共享正在形成共识
关联
- ai-ecosystem/overview — AI 生态系统概述
- ai-ecosystem/the-rundown-2026-03-19 — The Rundown 同期报道(Google Vibe Design)
- harness-engineering/overview — Harness Engineering 综述
- harness-engineering/skills-into-loops — Skills 与反馈循环
- product-trends/openclaw-getting-started — OpenClaw 生态
Sources
- 2026-03-19 MiniMax 2.7 自进化模型
- 2026-03-20 各大实验室争相收购开发者工具 — 自进化流程详解,第三方评估数据,社区反馈