Back/ai ecosystem

多模态搜索技术突破与创业机会

Updated 2026-04-12
2 min read
440 words

多模态搜索技术突破与创业机会

核心新闻动态

Google Gemini Embedding 2:多模态搜索的突破

技术特性:

  • 首个真正统一的多模态嵌入模型
  • 支持文本、音频、图像、视频、PDF 在同一模型中进行向量化
  • 打破了传统搜索只能处理文本的限制

定价策略:

  • 文本嵌入相对其他方案略贵
  • 视频(低帧率)和音频处理成本极低
  • 商业化门槛大幅降低

商业机会: 将催生大量"在非文本数据上搜索"的创业公司

技术意义: 为多媒体内容检索开辟新路径


应用场景

1. 视频内容搜索平台

  • 搜索 YouTube/B站视频中的特定场景、对话、画面
  • 教育视频的精准知识点定位
  • 影视作品的场景检索

2. 播客和音频内容检索

  • 在数千小时播客中搜索特定话题讨论
  • 会议录音的智能检索和摘要
  • 音乐中的特定旋律或歌词搜索

3. 企业知识库

  • 搜索公司内部的演示文稿、视频培训、会议录音
  • 跨格式的统一知识检索(文档+视频+音频)

4. 医疗影像检索

  • 在大量医学影像中搜索相似病例
  • 结合文本报告和影像的综合检索

其他重要动态

Replit Agent 4:AI开发工具的进化

核心功能:

  • 多个并行代理协同工作
  • 实时团队协作
  • 交互式设计画布(人类和AI都可编辑)

能力扩展: 不再局限于网页应用,可创建动画、幻灯片、移动应用、数据可视化

融资消息: 4亿美元融资,估值90亿美元

行业并购与产品动态

  • Meta 收购 Moltbook 团队:类似 Reddit 的 AI 代理社交平台
  • Perplexity Personal Computer:常驻版 AI 助手,通过 Mac mini 访问本地文件
  • Async Voice API:低延迟 TTS API,支持15种语言

开发者阅读清单

Karpathy 的 autoresearch 提示词解析

核心机制: 将 LLM 转变为贪婪爬山搜索代理,在代码空间中自主探索

工作流程: 编辑代码 → 训练5分钟 → 测量结果 → 保留或回滚

关键特性

  • 使用 Git 进行版本控制
  • TSV 文件记录审计轨迹
  • "永不停止"指令确保完全自主运行
  • 固定5分钟训练预算,专注优化验证集性能

从开发者到舰队指挥官

角色转变: 开发者不再编写单个程序,而是管理多个 AI 代理协同工作

AI 应该帮助我们产出更好的代码(Simon Willison)

核心论点: 用 AI 代理产出劣质代码是一种选择,我们可以选择产出更好的代码

避免技术债务的策略

  1. 启动异步代理(Gemini Jules、OpenAI Codex、Claude Code Web版)
  2. 在后台分支或 worktree 中运行
  3. 通过 Pull Request 评估结果
  4. 好的就合并,差的就丢弃

复合工程循环(Compound Engineering)

  • 每个编程项目结束后进行回顾
  • 将有效经验文档化,用于未来的代理运行
  • 持续提升代码库质量,小改进会复合增长

重大安全警示:McKinsey AI 平台被黑事件

攻击概况

目标:McKinsey 的内部 AI 平台 Lilli(43,000+ 员工使用,月处理 50万+ 提示词)

攻击方式:CodeWall 的自主攻击代理,无凭证、无内部知识、无人工干预

突破时间:2小时内获得生产数据库的完全读写权限

漏洞细节

SQL 注入: 未认证端点将 JSON 键名直接拼接到 SQL 中

攻击链

  1. 发现 200+ 个公开 API 端点,22个无需认证
  2. 识别 JSON 键名反映在数据库错误消息中的 SQL 注入
  3. 15次盲注迭代,逐步揭示查询结构
  4. 生产数据开始流出

数据规模

  • 4650万条聊天消息(明文存储)
  • 72.8万个文件
  • 5.7万个用户账户
  • 38.4万个 AI 助手
  • 368万个 RAG 文档块(McKinsey 数十年的专有研究)

提示词层攻击(Prompt Layer Compromise)

新型攻击面: 系统提示词存储在可写数据库中

攻击后果

  • 投毒建议:篡改财务模型、战略建议、风险评估
  • 数据外泄:通过输出嵌入机密信息
  • 移除防护栏:让 AI 泄露内部数据或忽略访问控制
  • 静默持久化:无日志痕迹,无代码变更

关键洞察AI 提示词是新的皇冠资产,但几乎没有组织将其视为高价值目标进行保护

行业意义

  • McKinsey 拥有世界级技术团队和安全投资,仍然出现 SQL 注入这种古老漏洞
  • 自主代理不遵循检查清单,而是像真实攻击者一样映射、探测、链接、升级
  • 在 AI 时代,威胁格局正在剧烈转变

立即可应用的方法

1. 用 AI 代理偿还技术债务

  1. 识别简单但耗时的重构任务:API 设计不一致、命名规范统一、重复功能合并
  2. 使用异步代理执行:在后台分支运行,通过 PR 评估结果
  3. 建立零容忍态度:对代码异味和小不便立即修复

2. 探索性原型开发降低技术选型风险

  1. 识别技术选型决策点
  2. 用 AI 代理构建模拟系统并运行负载测试
  3. 基于实验结果做决策

3. 提示词层安全防护

  1. 将提示词视为关键资产:不要存储在可写数据库中
  2. 安全审计:检查所有未认证 API 端点
  3. 监控和告警:监控提示词的修改

启发性创意

Idea 1:多模态搜索创业机会

核心洞察

  • 传统搜索局限于文本,但大量有价值信息存在于视频、音频、图像中
  • Gemini Embedding 2 首次实现真正统一的多模态嵌入
  • 视频和音频处理成本极低,商业化门槛降低

应用场景: 视频内容搜索平台、播客音频检索、企业知识库、医疗影像检索

Idea 2:提示词即基础设施

核心洞察

  • 组织花费数十年保护代码、服务器、供应链
  • 但提示词层——控制 AI 行为的指令——几乎无人保护
  • 提示词是新的皇冠资产

应用场景: 提示词版本控制系统、提示词完整性监控、提示词安全扫描工具、Prompt as Code

Idea 3:从开发者到舰队指挥官

核心洞察

  • 开发者不再编写单个程序
  • 而是管理多个 AI 代理协同工作
  • 需要新的技能:协调、监督、优化

关键数据

指标 数值
Replit 融资 4亿美元,估值90亿美元
Cursor 估值 500-600亿美元(传闻)
NVIDIA 开源投入 260亿美元(5年)
McKinsey Lilli 采用率 70%员工,月处理50万+提示词
Cutlet 项目周期 4周构建完整编程语言
McKinsey 攻破时间 2小时获得完全读写权限

总结

Gemini Embedding 2 的多模态能力开启了新的商业机会:

  1. 技术突破:多模态搜索打破文本限制
  2. 开发实践:从 Cutlet 项目学习如何有效使用 AI 代理
  3. 安全警示:McKinsey 事件揭示提示词层的新型攻击面
  4. 工程方法:复合工程、探索性原型、技术债务偿还等实用模式

最重要的启示

  • AI 代理不是替代开发者,而是改变开发者的工作方式
  • 从编写代码到管理代理,从单兵作战到舰队指挥
  • 安全和质量依然重要,甚至更加重要

Sources

Linked from