Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流
Multimodal Agent Pipeline 是一种让 Agent 同时理解视频画面、音频语音和屏幕文字,并将长视频重新整理成可阅读、可搜索、可复用知识的工程模式。核心突破是跳过传统 ASR 转写步骤,让模型直接消费多模态原始信号。
What it is
传统视频转文字流水线是"先压缩再理解":ASR 把视频压成纯文本 → LLM 基于文本写文章 → 人工挑配图 → 重新对齐。每一步都在丢信息:语气、停顿、背景音、slide 上的架构图、IDE 里被高亮的几行代码、demo 页面的状态变化。
全模态 Agent 流水线把"音频、画面、屏幕文字"放到同一个理解空间。模型可以同时回答:讲者刚才说了什么?画面上出现了什么?两件事合在一起表达的技术含义是什么?
Why it matters
技术视频里的大量关键信息不在语音里,而在画面里。纯 ASR + LLM 的流水线对访谈和播客有效,但对技术演讲遇到天然瓶颈。
Doubao-Seed-2.0-lite 等轻量级全模态模型的出现,使这类工作流从"复杂研究型流水线"变成"可工程化复用的 Agent Skill"。
Key points
- 切片不是转写:长视频先按时间切片(ffmpeg),但每个切片仍保留视频+画面+音频信息,模型在处理每一段时仍能看到 slide、代码、UI 和听到声音
- 先输出结构化素材,再写文章:让模型先当"研究助理"输出主题、章节、关键证据、需保留的术语、不确定点;拿到素材后再进入写作阶段。一步到位容易失控
- 根据文章反查视频挑配图:把文章初稿和原视频一起交给多模态模型,让它为博客挑关键帧。输出 JSON(timestamp、description、suggested_caption、reason)
- 模型负责理解决策,脚本负责确定性执行:截图、命名、保存、插入路径都交给 ffmpeg 等确定性工具
- 原子化 Skill 设计:不做专门的"视频转博客"Skill,而是拆成一组原子 task。同一套 Skill 换 prompt 和输出格式即可用于竞品分析、课堂记录、游戏复盘
Process overview
- 检查与切片:长视频按时间切片,保留多模态信息
- 生成结构化素材:模型输出主题、章节、关键证据与不确定点
- 关键帧提取:基于文章反查视频,输出带 reason 的 keyframe JSON
- 截图与落盘:ffmpeg 按 timestamp 截图并插入 Markdown
四步标准流程(详细)
- 检查与切片:视频超过 20 分钟或 50MB 则自动切片;分辨率高于 720p 则下采样。切片保留多模态信息
- 生成结构化素材:输出主题、按时间拆分的章节、每章讲解重点、画面关键证据、需保留的英文术语、不确定点
- 关键帧提取:基于文章反查视频,输出带 reason 的 keyframe JSON
- 截图与落盘:ffmpeg 按 timestamp_sec 截图,按顺序插入 Markdown。注意分段内的局部时间戳需转换为全局时间戳
局限
- 输入长度和大小仍有限制,长视频需切片+并发+合并
- 长输出稳定性需要分阶段设计,一次性输出长文章+几十张图+复杂 JSON 失败概率高
- 时间戳不是永远帧级精确,对画面清晰度要求高时需在 timestamp 前后取候选帧二次筛选
- 技术文章最终仍需人工审稿,尤其是 API、版本、命令、事实判断
- 更适合异步深度理解,不等同于实时流式音视频助手
相关技巧:Contact Sheet 视觉压缩(2026-05-06)
当面对大量无信息文件名的图像素材(如 ui_001.png、icon_047.png)时,多模态模型的上下文无法承载逐张读取。Codex 在实战中使用了一种视觉压缩技巧:
- 写脚本将文件夹内所有小图自动排版拼成一张巨大的网格图(contact sheet)
- 每张小图下方标注原始文件名
- 只将这一张大图传给多模态模型
- 模型"扫一眼"即可同时看到一百张素材的样子,看中哪张直接读出文件名,再去原文件夹按名引用
核心洞察:"一次视觉消费,顶一百次检索。" 模型意识到自己的视觉带宽有限,主动为自己造了一个更好用的输入——这一步是独立完成的,不需要人类介入。
这与全模态 Agent 流水线的"先输出结构化素材,再写文章"原则同构:当原始数据量超过模型直接消费能力时,先用确定性脚本做一层智能压缩,再把压缩后的信号交给模型理解。
迁移场景
| 场景 | 采集 | 理解 | 输出 |
|---|---|---|---|
| 竞品直播追踪 | GUI Agent 录屏 | 多模态分析商品、话术、价格变化 | HTML 看板 |
| 在线课堂报告 | 课堂录屏+学生语音 | 专注度、流畅度、发音、情绪 | 家长报告 |
| 游戏赛后复盘 | 整场录屏 | 经济选择、道具使用、队友沟通 | 教练式复盘报告 |
Limitations
长视频需切片并发处理;长输出稳定性要求分阶段设计;时间戳精度不足时需候选帧二次筛选;技术文章仍需人工审稿。
Evidence across sources
| Source | Key Claim | Relevance |
|---|---|---|
| Agent + 豆包 Seed2.0 lite 视频转博客工作流 | 全模态 Agent 跳过 ASR,直接消费视频+画面+音频;四步标准流程可工程化复用 | Core methodology |
| Codex 快速游戏开发实战 | Contact Sheet 视觉压缩:一次视觉消费顶一百次检索 | Supporting technique |
Open questions
- 全模态理解是否会在 Agent 工作流中成为默认能力,还是需要始终作为独立 Skill 存在?
- 当 Agent 自身模型已支持视频理解时,轻量 Skill 模型的价值是否只剩下成本优化?
- 这类工作流对哪些内容类型"不值得"做全模态处理(例如纯语音播客)?
Prompts for witness
- 你手头有哪些课程视频、会议录屏、直播回放、产品演示——如果重做一遍,哪些环节可以用多模态 Agent 替代人工?
- 如果模型能同时看画面、听声音、读文字,你的某个现有工作流是否值得重新设计?
- 全模态 Agent 流水线最大的瓶颈是模型能力、工程封装成本,还是人工审稿的信任门槛?
Related
- harness-engineering/multimodal-agent-pipeline-detail — 四步流程、局限、Contact Sheet 技巧、迁移场景
- harness-engineering/multi-agent-coordination-patterns — 多 Agent 协作的模式选择
- harness-engineering/skills-into-loops — Skill 的原子化设计与循环接入
- ai-tools/overview — 多模态模型和 Agent 框架工具
- product-trends/vibe-coding-market-dynamics — 个人开发者用 Agent 快速构建完整产品的趋势