从零构建极简 AI Agent 框架
腾讯 yabohe 的理论+实践教程,用 279 行 Python 从零实现一个五脏俱全的 Agent 框架,揭示 Agent 本质。
核心公式
Agent = Reasoning + Acting
框架设计的核心:在 Agent Loop 这个 While 循环中设计如何管理上下文。
三种经典模式
| 模式 | 特点 | 适用场景 |
|---|---|---|
| ReAct | 推理与行动交替,边做边想 | 通用场景,最基础 |
| Plan-and-Execute | 先制定完整计划再执行 | 复杂且任务关系明确的长期任务 |
| Reflection | 通过语言反馈自我改进 | 需要迭代优化的任务 |
Agent 框架三大要素
- LLM Call:API 管理,兼容各厂商。LiteLLM 已是佼佼者。
- Tools Call:文件操作、网络搜索、Shell/代码执行、API/MCP。
- Context Engineering:提示词工程 + 外部工具上下文。这是智能的核心变量。
"在不提供任何 Context 的情况下,最先进的模型 GPT-5.1 (High) 仅能解决不到 1% 的任务。" —— Shunyu Yao 团队
极简框架架构
User Interface (CLI REPL)
↓
Agent Loop Core
LLM Call → Tool Call Parser → Tool Exec Engine
↓
Response Formatter → Context Manager
↓
Tools Registry (shell_exec, file_read, file_write, python_exec)
Agent Loop(每次 Turn):
读取上下文 → 思考 → 决定行动 → 执行工具 → 获得结果 → 追加到上下文 → 循环
代码实现要点(279 行)
- 4 个工具:
shell_exec、file_read、file_write、python_exec - Tools 注册:
name → {function, OpenAI schema}字典映射 - Context 管理:messages 列表(OpenAI chat 格式),累积系统提示词、用户消息、助手响应和工具结果
- 安全上限:
MAX_TURNS = 20 - 模型:deepseek-chat(兼容 OpenAI SDK)
与 OpenClaw 的呼应
OpenClaw 底层 Agent Core(Pi Agent)的 Tools 层也有且仅包含四个工具:Read、Write、Edit、Shell。其他丰富能力均靠事件机制及 Skills 扩展。
写在后面
- 极简不是简陋,而是为了看清本质
- 代码库越简单 → 上下文越清晰 → 噪声越少 → Agent 越智能
- 框架提供基础工具,上下文工程提供环境,搭配商业 Skills,Agent 就能发挥巨大潜力
- Context Engineering 仍是最大的低垂果实