Skip to content
Back/Harness Engineering

Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

View in Graph
Updated 2026-05-11
2 min read
308 words

Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流

Multimodal Agent Pipeline 是一种让 Agent 同时理解视频画面、音频语音和屏幕文字,并将长视频重新整理成可阅读、可搜索、可复用知识的工程模式。核心突破是跳过传统 ASR 转写步骤,让模型直接消费多模态原始信号。

What it is

传统视频转文字流水线是"先压缩再理解":ASR 把视频压成纯文本 → LLM 基于文本写文章 → 人工挑配图 → 重新对齐。每一步都在丢信息:语气、停顿、背景音、slide 上的架构图、IDE 里被高亮的几行代码、demo 页面的状态变化。

全模态 Agent 流水线把"音频、画面、屏幕文字"放到同一个理解空间。模型可以同时回答:讲者刚才说了什么?画面上出现了什么?两件事合在一起表达的技术含义是什么?

Why it matters

技术视频里的大量关键信息不在语音里,而在画面里。纯 ASR + LLM 的流水线对访谈和播客有效,但对技术演讲遇到天然瓶颈。

Doubao-Seed-2.0-lite 等轻量级全模态模型的出现,使这类工作流从"复杂研究型流水线"变成"可工程化复用的 Agent Skill"。

Key points

  • 切片不是转写:长视频先按时间切片(ffmpeg),但每个切片仍保留视频+画面+音频信息,模型在处理每一段时仍能看到 slide、代码、UI 和听到声音
  • 先输出结构化素材,再写文章:让模型先当"研究助理"输出主题、章节、关键证据、需保留的术语、不确定点;拿到素材后再进入写作阶段。一步到位容易失控
  • 根据文章反查视频挑配图:把文章初稿和原视频一起交给多模态模型,让它为博客挑关键帧。输出 JSON(timestamp、description、suggested_caption、reason)
  • 模型负责理解决策,脚本负责确定性执行:截图、命名、保存、插入路径都交给 ffmpeg 等确定性工具
  • 原子化 Skill 设计:不做专门的"视频转博客"Skill,而是拆成一组原子 task。同一套 Skill 换 prompt 和输出格式即可用于竞品分析、课堂记录、游戏复盘

Process overview

  1. 检查与切片:长视频按时间切片,保留多模态信息
  2. 生成结构化素材:模型输出主题、章节、关键证据与不确定点
  3. 关键帧提取:基于文章反查视频,输出带 reason 的 keyframe JSON
  4. 截图与落盘:ffmpeg 按 timestamp 截图并插入 Markdown

四步标准流程(详细)

  1. 检查与切片:视频超过 20 分钟或 50MB 则自动切片;分辨率高于 720p 则下采样。切片保留多模态信息
  2. 生成结构化素材:输出主题、按时间拆分的章节、每章讲解重点、画面关键证据、需保留的英文术语、不确定点
  3. 关键帧提取:基于文章反查视频,输出带 reason 的 keyframe JSON
  4. 截图与落盘:ffmpeg 按 timestamp_sec 截图,按顺序插入 Markdown。注意分段内的局部时间戳需转换为全局时间戳

局限

  • 输入长度和大小仍有限制,长视频需切片+并发+合并
  • 长输出稳定性需要分阶段设计,一次性输出长文章+几十张图+复杂 JSON 失败概率高
  • 时间戳不是永远帧级精确,对画面清晰度要求高时需在 timestamp 前后取候选帧二次筛选
  • 技术文章最终仍需人工审稿,尤其是 API、版本、命令、事实判断
  • 更适合异步深度理解,不等同于实时流式音视频助手

相关技巧:Contact Sheet 视觉压缩(2026-05-06)

来源:Codex 快速游戏开发实战

当面对大量无信息文件名的图像素材(如 ui_001.pngicon_047.png)时,多模态模型的上下文无法承载逐张读取。Codex 在实战中使用了一种视觉压缩技巧

  1. 写脚本将文件夹内所有小图自动排版拼成一张巨大的网格图(contact sheet)
  2. 每张小图下方标注原始文件名
  3. 只将这一张大图传给多模态模型
  4. 模型"扫一眼"即可同时看到一百张素材的样子,看中哪张直接读出文件名,再去原文件夹按名引用

核心洞察:"一次视觉消费,顶一百次检索。" 模型意识到自己的视觉带宽有限,主动为自己造了一个更好用的输入——这一步是独立完成的,不需要人类介入。

这与全模态 Agent 流水线的"先输出结构化素材,再写文章"原则同构:当原始数据量超过模型直接消费能力时,先用确定性脚本做一层智能压缩,再把压缩后的信号交给模型理解

迁移场景

场景 采集 理解 输出
竞品直播追踪 GUI Agent 录屏 多模态分析商品、话术、价格变化 HTML 看板
在线课堂报告 课堂录屏+学生语音 专注度、流畅度、发音、情绪 家长报告
游戏赛后复盘 整场录屏 经济选择、道具使用、队友沟通 教练式复盘报告

Limitations

长视频需切片并发处理;长输出稳定性要求分阶段设计;时间戳精度不足时需候选帧二次筛选;技术文章仍需人工审稿。

Evidence across sources

Source Key Claim Relevance
Agent + 豆包 Seed2.0 lite 视频转博客工作流 全模态 Agent 跳过 ASR,直接消费视频+画面+音频;四步标准流程可工程化复用 Core methodology
Codex 快速游戏开发实战 Contact Sheet 视觉压缩:一次视觉消费顶一百次检索 Supporting technique

Open questions

  • 全模态理解是否会在 Agent 工作流中成为默认能力,还是需要始终作为独立 Skill 存在?
  • 当 Agent 自身模型已支持视频理解时,轻量 Skill 模型的价值是否只剩下成本优化?
  • 这类工作流对哪些内容类型"不值得"做全模态处理(例如纯语音播客)?

Prompts for witness

  • 你手头有哪些课程视频、会议录屏、直播回放、产品演示——如果重做一遍,哪些环节可以用多模态 Agent 替代人工?
  • 如果模型能同时看画面、听声音、读文字,你的某个现有工作流是否值得重新设计?
  • 全模态 Agent 流水线最大的瓶颈是模型能力、工程封装成本,还是人工审稿的信任门槛?

Sources

Synthesized from 2 sources
  • Agent + 豆包 Seed2.0 lite 视频转博客工作流Supporting source listed by this page.Whole pagemediumbody
  • codex快速游戏开发Supporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 2 sources.

    From Agent + 豆包 Seed2.0 lite 视频转博客工作流, codex快速游戏开发To Multimodal Agent Pipeline — 视频到结构化内容的全模态工作流
    Sources: raw/to-learn/把视频变成图文博客:Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流 · raw/to-learn/codex快速游戏开发.md

Linked from