Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

Multimodal Agent Pipeline 是一种让 Agent 同时理解视频画面、音频语音和屏幕文字，并将长视频重新整理成可阅读、可搜索、可复用知识的工程模式。核心突破是跳过传统 ASR 转写步骤，让模型直接消费多模态原始信号。

What it is

传统视频转文字流水线是"先压缩再理解"：ASR 把视频压成纯文本 → LLM 基于文本写文章 → 人工挑配图 → 重新对齐。每一步都在丢信息：语气、停顿、背景音、slide 上的架构图、IDE 里被高亮的几行代码、demo 页面的状态变化。

全模态 Agent 流水线把"音频、画面、屏幕文字"放到同一个理解空间。模型可以同时回答：讲者刚才说了什么？画面上出现了什么？两件事合在一起表达的技术含义是什么？

Why it matters

技术视频里的大量关键信息不在语音里，而在画面里。纯 ASR + LLM 的流水线对访谈和播客有效，但对技术演讲遇到天然瓶颈。

Doubao-Seed-2.0-lite 等轻量级全模态模型的出现，使这类工作流从"复杂研究型流水线"变成"可工程化复用的 Agent Skill"。

Key points

切片不是转写：长视频先按时间切片（ffmpeg），但每个切片仍保留视频+画面+音频信息，模型在处理每一段时仍能看到 slide、代码、UI 和听到声音
先输出结构化素材，再写文章：让模型先当"研究助理"输出主题、章节、关键证据、需保留的术语、不确定点；拿到素材后再进入写作阶段。一步到位容易失控
根据文章反查视频挑配图：把文章初稿和原视频一起交给多模态模型，让它为博客挑关键帧。输出 JSON（timestamp、description、suggested_caption、reason）
模型负责理解决策，脚本负责确定性执行：截图、命名、保存、插入路径都交给 ffmpeg 等确定性工具
原子化 Skill 设计：不做专门的"视频转博客"Skill，而是拆成一组原子 task。同一套 Skill 换 prompt 和输出格式即可用于竞品分析、课堂记录、游戏复盘

Process overview

检查与切片：长视频按时间切片，保留多模态信息
生成结构化素材：模型输出主题、章节、关键证据与不确定点
关键帧提取：基于文章反查视频，输出带 reason 的 keyframe JSON
截图与落盘：ffmpeg 按 timestamp 截图并插入 Markdown

四步标准流程（详细）

检查与切片：视频超过 20 分钟或 50MB 则自动切片；分辨率高于 720p 则下采样。切片保留多模态信息
生成结构化素材：输出主题、按时间拆分的章节、每章讲解重点、画面关键证据、需保留的英文术语、不确定点
关键帧提取：基于文章反查视频，输出带 reason 的 keyframe JSON
截图与落盘：ffmpeg 按 timestamp_sec 截图，按顺序插入 Markdown。注意分段内的局部时间戳需转换为全局时间戳

局限

输入长度和大小仍有限制，长视频需切片+并发+合并
长输出稳定性需要分阶段设计，一次性输出长文章+几十张图+复杂 JSON 失败概率高
时间戳不是永远帧级精确，对画面清晰度要求高时需在 timestamp 前后取候选帧二次筛选
技术文章最终仍需人工审稿，尤其是 API、版本、命令、事实判断
更适合异步深度理解，不等同于实时流式音视频助手

迁移场景

场景	采集	理解	输出
竞品直播追踪	GUI Agent 录屏	多模态分析商品、话术、价格变化	HTML 看板
在线课堂报告	课堂录屏+学生语音	专注度、流畅度、发音、情绪	家长报告
游戏赛后复盘	整场录屏	经济选择、道具使用、队友沟通	教练式复盘报告

Limitations

长视频需切片并发处理；长输出稳定性要求分阶段设计；时间戳精度不足时需候选帧二次筛选；技术文章仍需人工审稿。

Evidence across sources

Source	Key Claim	Relevance
Agent + 豆包 Seed2.0 lite 视频转博客工作流	全模态 Agent 跳过 ASR，直接消费视频+画面+音频；四步标准流程可工程化复用	Core methodology
Codex 快速游戏开发实战	Contact Sheet 视觉压缩：一次视觉消费顶一百次检索	Supporting technique

Open questions

全模态理解是否会在 Agent 工作流中成为默认能力，还是需要始终作为独立 Skill 存在？
当 Agent 自身模型已支持视频理解时，轻量 Skill 模型的价值是否只剩下成本优化？
这类工作流对哪些内容类型"不值得"做全模态处理（例如纯语音播客）？

Prompts for witness

你手头有哪些课程视频、会议录屏、直播回放、产品演示——如果重做一遍，哪些环节可以用多模态 Agent 替代人工？
如果模型能同时看画面、听声音、读文字，你的某个现有工作流是否值得重新设计？
全模态 Agent 流水线最大的瓶颈是模型能力、工程封装成本，还是人工审稿的信任门槛？

harness-engineering/multimodal-agent-pipeline-detail — 四步流程、局限、Contact Sheet 技巧、迁移场景
harness-engineering/multi-agent-coordination-patterns — 多 Agent 协作的模式选择
harness-engineering/skills-into-loops — Skill 的原子化设计与循环接入
ai-tools/overview — 多模态模型和 Agent 框架工具
product-trends/vibe-coding-market-dynamics — 个人开发者用 Agent 快速构建完整产品的趋势

Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

What it is

Why it matters

Key points

Process overview

四步标准流程（详细）

局限

相关技巧：Contact Sheet 视觉压缩（2026-05-06）

迁移场景

Limitations

Evidence across sources

Open questions

Prompts for witness

Sources

Evolution

Derived from source material

Linked from

Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

What it is

Why it matters

Key points

Process overview

四步标准流程（详细）

局限

相关技巧：Contact Sheet 视觉压缩（2026-05-06）

迁移场景

Limitations

Evidence across sources

Open questions

Prompts for witness

Related

Sources

Evolution

Derived from source material

Linked from