Back/ai ecosystem

MiniMax M2.7 — 自进化模型与 Agent Harness 工程

Updated 2026-04-11
2 min read
411 words

MiniMax M2.7 — 自进化模型与 Agent Harness 工程

来源:AINews / Latent Space,2026-03-19

核心亮点

MiniMax M2.7 定位是**"首个深度参与自身进化的模型"**,在 SWE-Pro 和 Terminal Bench 2 基准测试中达到与 Sonnet 4.6 在 OpenClaw 上持平的表现。

性能数据

指标 数值
SWE-Pro 56.22%
Terminal Bench 2 57.0%
40+ 技能遵从率 97%
OpenClaw 表现 与 Sonnet 4.6 持平

成本效率(Artificial Analysis)

  • Intelligence Index: 50(与 GLM-5 持平)
  • 价格: $0.30/$1.20 per 1M input/output tokens
  • 成本优势: 不到 GLM-5 成本的 1/3
  • GDPval-AA Elo: 1494(超过 MiMo-V2-Pro 1426、GLM-5 1406、Kimi K2.5 1283)
  • 幻觉率: 较 M2.5 大幅降低

即时分发: Ollama、Trae、OpenRouter、Vercel、opencode、kilocode 等同步上线


自进化能力详解

什么是"自进化"

M2.7 内部 harness 支持递归改进:

  1. 收集反馈
  2. 构建 eval 集
  3. 迭代 skills/MCP/记忆/架构

与传统模型的区别

传统模型 自进化模型
固定训练后部署 部署后持续自我改进
依赖人工标注反馈 自主收集和分析反馈
静态技能集 动态迭代技能和工具

Agent Harness 工程趋势

核心观点

瓶颈已不是基础模型,而是周围的执行环境。

  • The Turing Post 采访 Michael Bolin:编程 Agent 问题本质是工具、代码库可读性、约束和反馈循环 —— 即 harness engineering
  • GPT-5.4 mini 的意义:廉价快速的子 Agent 改变了"值得委派什么"的边界

Skills 成为跨 Agent 栈的共享抽象

实际使用模式:

  • 渐进式披露
  • 追踪检查
  • 会话蒸馏
  • CI 触发 skills
  • 自我改进 skills

Anthropic Claude Code 官方澄清:

Skill 不只是文本片段,而是包含脚本/资产/数据的文件夹,描述字段应说明何时触发

通过 MCP resources 分发 skills 可能解决版本管理问题。

开放 Agent 栈收敛

Harrison Chase 的框架分析:Claude Code、OpenClaw、Manus 等都是同一分解方式:

开放 Agent 栈 = open model + runtime + harness

相关基础设施发布:

  • LangSmith Sandboxes:安全代码执行
  • LangSmith Polly GA:产品内调试/改进助手
  • Google Colab MCP server:本地 Agent 驱动 Colab GPU 运行时

MCP 动态

立场 观点
✅ Google Gemini API 支持内置工具 + 自定义函数在同一次调用中
❌ skirano "MCP 是个错误,CLI 万岁"
😄 denisyarats 调侃 "model cli protocol"

架构与基础设施创新

Attention Residual — 模型-系统协同设计

Kimi/Moonshot 的 AttnRes 工作被解读为跨模型研究和基础设施的协同设计:

  • 垂直注意力(跨层注意力)概念
  • 每层查询前一层状态
  • 有效将注意力从水平序列交互扩展到层间记忆
  • 层数 << 序列长度
  • 几乎不增加额外延迟

Mamba-3 发布

作者:@_albertgu 和 @tri_dao

核心主张:

  • 明确专注于推理效率,而非完全替代 transformer
  • MIMO 变体
  • 在相似解码速度下提升模型强度
  • 1.5B 参数下最强的线性模型性能
  • 最快的 prefill+decode

适用场景:

  • 推理密集型 RL
  • 长 rollout 工作负载

共同启示: 实验室仍在寻找放松完整 transformer 瓶颈的方法,同时不过多牺牲生态系统兼容性。


关键洞察

  1. 自进化是下一个重大步骤 — MiniMax 是中国首批公开宣称这一能力的实验室之一
  2. Harness 工程成为差异化因素 — 模型能力趋于收敛,执行环境和工具生态成为关键
  3. 子 Agent 改变委派边界 — 廉价快速的小模型让"什么值得自动化"的边界不断扩展
  4. Skills 成为可移植资产 — 跨 Agent 平台的技能共享正在形成共识

关联


Sources

Linked from