多模态搜索技术突破与创业机会
核心新闻动态
Google Gemini Embedding 2:多模态搜索的突破
技术特性:
- 首个真正统一的多模态嵌入模型
- 支持文本、音频、图像、视频、PDF 在同一模型中进行向量化
- 打破了传统搜索只能处理文本的限制
定价策略:
- 文本嵌入相对其他方案略贵
- 视频(低帧率)和音频处理成本极低
- 商业化门槛大幅降低
商业机会: 将催生大量"在非文本数据上搜索"的创业公司
技术意义: 为多媒体内容检索开辟新路径
应用场景
1. 视频内容搜索平台
- 搜索 YouTube/B站视频中的特定场景、对话、画面
- 教育视频的精准知识点定位
- 影视作品的场景检索
2. 播客和音频内容检索
- 在数千小时播客中搜索特定话题讨论
- 会议录音的智能检索和摘要
- 音乐中的特定旋律或歌词搜索
3. 企业知识库
- 搜索公司内部的演示文稿、视频培训、会议录音
- 跨格式的统一知识检索(文档+视频+音频)
4. 医疗影像检索
- 在大量医学影像中搜索相似病例
- 结合文本报告和影像的综合检索
其他重要动态
Replit Agent 4:AI开发工具的进化
核心功能:
- 多个并行代理协同工作
- 实时团队协作
- 交互式设计画布(人类和AI都可编辑)
能力扩展: 不再局限于网页应用,可创建动画、幻灯片、移动应用、数据可视化
融资消息: 4亿美元融资,估值90亿美元
行业并购与产品动态
- Meta 收购 Moltbook 团队:类似 Reddit 的 AI 代理社交平台
- Perplexity Personal Computer:常驻版 AI 助手,通过 Mac mini 访问本地文件
- Async Voice API:低延迟 TTS API,支持15种语言
开发者阅读清单
Karpathy 的 autoresearch 提示词解析
核心机制: 将 LLM 转变为贪婪爬山搜索代理,在代码空间中自主探索
工作流程: 编辑代码 → 训练5分钟 → 测量结果 → 保留或回滚
关键特性:
- 使用 Git 进行版本控制
- TSV 文件记录审计轨迹
- "永不停止"指令确保完全自主运行
- 固定5分钟训练预算,专注优化验证集性能
从开发者到舰队指挥官
角色转变: 开发者不再编写单个程序,而是管理多个 AI 代理协同工作
AI 应该帮助我们产出更好的代码(Simon Willison)
核心论点: 用 AI 代理产出劣质代码是一种选择,我们可以选择产出更好的代码
避免技术债务的策略:
- 启动异步代理(Gemini Jules、OpenAI Codex、Claude Code Web版)
- 在后台分支或 worktree 中运行
- 通过 Pull Request 评估结果
- 好的就合并,差的就丢弃
复合工程循环(Compound Engineering):
- 每个编程项目结束后进行回顾
- 将有效经验文档化,用于未来的代理运行
- 持续提升代码库质量,小改进会复合增长
重大安全警示:McKinsey AI 平台被黑事件
攻击概况
目标:McKinsey 的内部 AI 平台 Lilli(43,000+ 员工使用,月处理 50万+ 提示词)
攻击方式:CodeWall 的自主攻击代理,无凭证、无内部知识、无人工干预
突破时间:2小时内获得生产数据库的完全读写权限
漏洞细节
SQL 注入: 未认证端点将 JSON 键名直接拼接到 SQL 中
攻击链:
- 发现 200+ 个公开 API 端点,22个无需认证
- 识别 JSON 键名反映在数据库错误消息中的 SQL 注入
- 15次盲注迭代,逐步揭示查询结构
- 生产数据开始流出
数据规模:
- 4650万条聊天消息(明文存储)
- 72.8万个文件
- 5.7万个用户账户
- 38.4万个 AI 助手
- 368万个 RAG 文档块(McKinsey 数十年的专有研究)
提示词层攻击(Prompt Layer Compromise)
新型攻击面: 系统提示词存储在可写数据库中
攻击后果:
- 投毒建议:篡改财务模型、战略建议、风险评估
- 数据外泄:通过输出嵌入机密信息
- 移除防护栏:让 AI 泄露内部数据或忽略访问控制
- 静默持久化:无日志痕迹,无代码变更
关键洞察: AI 提示词是新的皇冠资产,但几乎没有组织将其视为高价值目标进行保护
行业意义
- McKinsey 拥有世界级技术团队和安全投资,仍然出现 SQL 注入这种古老漏洞
- 自主代理不遵循检查清单,而是像真实攻击者一样映射、探测、链接、升级
- 在 AI 时代,威胁格局正在剧烈转变
立即可应用的方法
1. 用 AI 代理偿还技术债务
- 识别简单但耗时的重构任务:API 设计不一致、命名规范统一、重复功能合并
- 使用异步代理执行:在后台分支运行,通过 PR 评估结果
- 建立零容忍态度:对代码异味和小不便立即修复
2. 探索性原型开发降低技术选型风险
- 识别技术选型决策点
- 用 AI 代理构建模拟系统并运行负载测试
- 基于实验结果做决策
3. 提示词层安全防护
- 将提示词视为关键资产:不要存储在可写数据库中
- 安全审计:检查所有未认证 API 端点
- 监控和告警:监控提示词的修改
启发性创意
Idea 1:多模态搜索创业机会
核心洞察:
- 传统搜索局限于文本,但大量有价值信息存在于视频、音频、图像中
- Gemini Embedding 2 首次实现真正统一的多模态嵌入
- 视频和音频处理成本极低,商业化门槛降低
应用场景: 视频内容搜索平台、播客音频检索、企业知识库、医疗影像检索
Idea 2:提示词即基础设施
核心洞察:
- 组织花费数十年保护代码、服务器、供应链
- 但提示词层——控制 AI 行为的指令——几乎无人保护
- 提示词是新的皇冠资产
应用场景: 提示词版本控制系统、提示词完整性监控、提示词安全扫描工具、Prompt as Code
Idea 3:从开发者到舰队指挥官
核心洞察:
- 开发者不再编写单个程序
- 而是管理多个 AI 代理协同工作
- 需要新的技能:协调、监督、优化
关键数据
| 指标 | 数值 |
|---|---|
| Replit 融资 | 4亿美元,估值90亿美元 |
| Cursor 估值 | 500-600亿美元(传闻) |
| NVIDIA 开源投入 | 260亿美元(5年) |
| McKinsey Lilli 采用率 | 70%员工,月处理50万+提示词 |
| Cutlet 项目周期 | 4周构建完整编程语言 |
| McKinsey 攻破时间 | 2小时获得完全读写权限 |
总结
Gemini Embedding 2 的多模态能力开启了新的商业机会:
- 技术突破:多模态搜索打破文本限制
- 开发实践:从 Cutlet 项目学习如何有效使用 AI 代理
- 安全警示:McKinsey 事件揭示提示词层的新型攻击面
- 工程方法:复合工程、探索性原型、技术债务偿还等实用模式
最重要的启示:
- AI 代理不是替代开发者,而是改变开发者的工作方式
- 从编写代码到管理代理,从单兵作战到舰队指挥
- 安全和质量依然重要,甚至更加重要