多模态搜索技术突破与创业机会

核心新闻动态

Google Gemini Embedding 2：多模态搜索的突破

技术特性:

首个真正统一的多模态嵌入模型
支持文本、音频、图像、视频、PDF 在同一模型中进行向量化
打破了传统搜索只能处理文本的限制

定价策略:

文本嵌入相对其他方案略贵
视频（低帧率）和音频处理成本极低
商业化门槛大幅降低

商业机会: 将催生大量"在非文本数据上搜索"的创业公司

技术意义: 为多媒体内容检索开辟新路径

应用场景

1. 视频内容搜索平台

搜索 YouTube/B站视频中的特定场景、对话、画面
教育视频的精准知识点定位
影视作品的场景检索

2. 播客和音频内容检索

在数千小时播客中搜索特定话题讨论
会议录音的智能检索和摘要
音乐中的特定旋律或歌词搜索

3. 企业知识库

搜索公司内部的演示文稿、视频培训、会议录音
跨格式的统一知识检索（文档+视频+音频）

4. 医疗影像检索

在大量医学影像中搜索相似病例
结合文本报告和影像的综合检索

其他重要动态

Replit Agent 4：AI开发工具的进化

核心功能:

多个并行代理协同工作
实时团队协作
交互式设计画布（人类和AI都可编辑）

能力扩展: 不再局限于网页应用，可创建动画、幻灯片、移动应用、数据可视化

融资消息: 4亿美元融资，估值90亿美元

行业并购与产品动态

Meta 收购 Moltbook 团队：类似 Reddit 的 AI 代理社交平台
Perplexity Personal Computer：常驻版 AI 助手，通过 Mac mini 访问本地文件
Async Voice API：低延迟 TTS API，支持15种语言

开发者阅读清单

Karpathy 的 autoresearch 提示词解析

核心机制：将 LLM 转变为贪婪爬山搜索代理，在代码空间中自主探索

工作流程：编辑代码 → 训练5分钟 → 测量结果 → 保留或回滚

关键特性：

使用 Git 进行版本控制
TSV 文件记录审计轨迹
"永不停止"指令确保完全自主运行
固定5分钟训练预算，专注优化验证集性能

从开发者到舰队指挥官

角色转变：开发者不再编写单个程序，而是管理多个 AI 代理协同工作

AI 应该帮助我们产出更好的代码（Simon Willison）

核心论点：用 AI 代理产出劣质代码是一种选择，我们可以选择产出更好的代码

避免技术债务的策略：

启动异步代理（Gemini Jules、OpenAI Codex、Claude Code Web版）
在后台分支或 worktree 中运行
通过 Pull Request 评估结果
好的就合并，差的就丢弃

复合工程循环（Compound Engineering）：

每个编程项目结束后进行回顾
将有效经验文档化，用于未来的代理运行
持续提升代码库质量，小改进会复合增长

重大安全警示：McKinsey AI 平台被黑事件

攻击概况

目标：McKinsey 的内部 AI 平台 Lilli（43,000+ 员工使用，月处理 50万+ 提示词）

攻击方式：CodeWall 的自主攻击代理，无凭证、无内部知识、无人工干预

突破时间：2小时内获得生产数据库的完全读写权限

漏洞细节

SQL 注入：未认证端点将 JSON 键名直接拼接到 SQL 中

攻击链：

发现 200+ 个公开 API 端点，22个无需认证
识别 JSON 键名反映在数据库错误消息中的 SQL 注入
15次盲注迭代，逐步揭示查询结构
生产数据开始流出

数据规模：

4650万条聊天消息（明文存储）
72.8万个文件
5.7万个用户账户
38.4万个 AI 助手
368万个 RAG 文档块（McKinsey 数十年的专有研究）

提示词层攻击（Prompt Layer Compromise）

新型攻击面：系统提示词存储在可写数据库中

攻击后果：

投毒建议：篡改财务模型、战略建议、风险评估
数据外泄：通过输出嵌入机密信息
移除防护栏：让 AI 泄露内部数据或忽略访问控制
静默持久化：无日志痕迹，无代码变更

关键洞察： AI 提示词是新的皇冠资产，但几乎没有组织将其视为高价值目标进行保护

行业意义

McKinsey 拥有世界级技术团队和安全投资，仍然出现 SQL 注入这种古老漏洞
自主代理不遵循检查清单，而是像真实攻击者一样映射、探测、链接、升级
在 AI 时代，威胁格局正在剧烈转变

立即可应用的方法

1. 用 AI 代理偿还技术债务

识别简单但耗时的重构任务：API 设计不一致、命名规范统一、重复功能合并
使用异步代理执行：在后台分支运行，通过 PR 评估结果
建立零容忍态度：对代码异味和小不便立即修复

2. 探索性原型开发降低技术选型风险

识别技术选型决策点
用 AI 代理构建模拟系统并运行负载测试
基于实验结果做决策

3. 提示词层安全防护

将提示词视为关键资产：不要存储在可写数据库中
安全审计：检查所有未认证 API 端点
监控和告警：监控提示词的修改

启发性创意

Idea 1：多模态搜索创业机会

核心洞察：

传统搜索局限于文本，但大量有价值信息存在于视频、音频、图像中
Gemini Embedding 2 首次实现真正统一的多模态嵌入
视频和音频处理成本极低，商业化门槛降低

应用场景：视频内容搜索平台、播客音频检索、企业知识库、医疗影像检索

Idea 2：提示词即基础设施

核心洞察：

组织花费数十年保护代码、服务器、供应链
但提示词层——控制 AI 行为的指令——几乎无人保护
提示词是新的皇冠资产

应用场景：提示词版本控制系统、提示词完整性监控、提示词安全扫描工具、Prompt as Code

Idea 3：从开发者到舰队指挥官

核心洞察：

开发者不再编写单个程序
而是管理多个 AI 代理协同工作
需要新的技能：协调、监督、优化

关键数据

指标	数值
Replit 融资	4亿美元，估值90亿美元
Cursor 估值	500-600亿美元（传闻）
NVIDIA 开源投入	260亿美元（5年）
McKinsey Lilli 采用率	70%员工，月处理50万+提示词
Cutlet 项目周期	4周构建完整编程语言
McKinsey 攻破时间	2小时获得完全读写权限

总结

Gemini Embedding 2 的多模态能力开启了新的商业机会：

技术突破：多模态搜索打破文本限制
开发实践：从 Cutlet 项目学习如何有效使用 AI 代理
安全警示：McKinsey 事件揭示提示词层的新型攻击面
工程方法：复合工程、探索性原型、技术债务偿还等实用模式

最重要的启示：

AI 代理不是替代开发者，而是改变开发者的工作方式
从编写代码到管理代理，从单兵作战到舰队指挥
安全和质量依然重要，甚至更加重要

多模态搜索技术突破与创业机会

多模态搜索技术突破与创业机会

核心新闻动态

Google Gemini Embedding 2：多模态搜索的突破

应用场景

1. 视频内容搜索平台

2. 播客和音频内容检索

3. 企业知识库

4. 医疗影像检索

其他重要动态

Replit Agent 4：AI开发工具的进化

行业并购与产品动态

开发者阅读清单

Karpathy 的 autoresearch 提示词解析

从开发者到舰队指挥官

AI 应该帮助我们产出更好的代码（Simon Willison）

重大安全警示：McKinsey AI 平台被黑事件

攻击概况

漏洞细节

提示词层攻击（Prompt Layer Compromise）

行业意义

立即可应用的方法

1. 用 AI 代理偿还技术债务

2. 探索性原型开发降低技术选型风险

3. 提示词层安全防护

启发性创意

Idea 1：多模态搜索创业机会

Idea 2：提示词即基础设施

Idea 3：从开发者到舰队指挥官

关键数据

总结

Sources

Evolution

Derived from source material

Linked from