AI 数据授权市场
Reddit、Shutterstock 和 News Corp 等大公司正通过向 AI 实验室授权数据获得数亿美元收入,且这些合同以每年约 20% 的速度增长。
市场规模与参与者
主要玩家
| 公司 | 数据类型 | 年收入规模 |
|---|---|---|
| 用户生成内容、讨论 | 数亿美元 | |
| Shutterstock | 图片、视频 | 数亿美元 |
| News Corp | 新闻、出版内容 | 数亿美元 |
增长趋势
- 年增长率:约 20%
- 合同特点:长期协议,持续多年
- 市场扩展:从科技巨头扩展到更多 AI 实验室
新兴平台
- Mercor:历史上增长最快的公司之一,估值达到 100 亿美元
- 竞争对手:Turing、Handshake、SID.ai 正在争夺市场份额
什么数据具有价值
价值特征
最有价值的数据源具备两个特征:
- 高质量
- 持续增长
持续增长示例:
- Reddit 不断获得新帖子
- Shutterstock 不断获得新图片上传
- 游戏从数百万人类决策的新会话中生成数据
当前热点
软件工程和数学相关数据是 AI 实验室的最大需求。
原因:如果你能构建一个编写优秀代码并推理复杂问题的 AI,你就可以用它来构建下一个更好的 AI——这种递归循环解释了为什么实验室如此重视软件工程和数学。
扩展领域
随着 IPO 临近,实验室已将兴趣范围扩大到"具有经济价值的工作":
- 医疗保健
- 专业服务
- 国防
什么造就优秀的模型
现状:尚无定论
无论是实验室还是 X 上的专家——都没有确定什么造就优秀模型以及需要什么数据。
这为个人在塑造 AI 未来方面提供了重要发言权。
基准测试与现实脱节
卡内基梅隆大学和斯坦福大学的研究发现:
- 编程和数学在基准测试中占比过高
- 大多数工作——包括你每天做的大部分事情(规划商务旅行、数据分析等)——其 AI 适用性和性能从未被测量过
机会所在:这些差异正是下一波有价值数据的隐藏之处。率先弄清楚如何测量这些领域的团队将长期设定标准并获得重要的软实力。
企业如何从数据中获取价值
两条路径
如果你运营一家拥有专有数据的公司,你有两条路径:
路径一:数据授权
- 将数据出售给 AI 实验室
- 获得直接收入
- 保留数据所有权
路径二:自用训练
- 使用数据训练自己的模型
- Cursor、Shopify、Pinterest、Cognition 等公司已经在开源基础上训练自己的模型
自用优势:
- 成本更低且往往更适合特定工作
- 知识产权保留在公司内部
- 每次使用都会生成更多可用于进一步改进模型的训练数据
- 形成飞轮效应,构成护城河
小模型的惊人表现
一个使用不到 2000 个真实律师、银行家和顾问示例训练的小模型,在企业法律工作上击败了除最佳前沿模型外的所有模型,且成本仅为后者的一小部分。
颠覆认知:这挑战了"规模决定一切"的普遍认知。
行动建议
数据资产盘点:
- 列出公司每天产生且模型在其他地方无法获得的独特数据
- 重点关注:专家解释推理的通话记录、支持团队解决的边缘案例、解释决策原因的文档
模型训练入门:
- 考虑使用 Prime Intellect、Unsloth、Tinker 等工具
- 从小规模开始:研究表明,小模型在特定任务上可以击败大模型
- 建立内部飞轮:每次使用都生成更多训练数据
数据市场的深层影响
责任重大
赢得这个市场的公司将承担不寻常的责任:成为人类知识和思维方式的守护者。
他们决定:
- 什么被测量
- 什么被保存
- 什么被输入到越来越多人每天用来做出真实决策的系统中
包容性挑战
确保人类经验的广度——包括最难捕捉的部分——出现在数据中。
时机重要
大多数这些决定尚未做出,现在关注的人将有机会参与决策。
相关概念
来源
- 2026-04-11 The Market for Making AI Better (via newsletter skill)
- Every.to - The Market for Making AI Better (Alex Duffy)