AI 搜索可见性
What it is
AI 搜索可见性(Generative Engine Optimization, GEO)是一组让 AI 检索系统能准确发现、理解和引用你的内容的技术实践。它与传统 SEO 的根本区别在于:目标不是排名,而是让模型在生成回答时把你的内容当作可信来源。
Why it matters
Tw93 的实验和后续研究数据表明,83% 的 AI Overview 引用来自排名前 10 之外的页面。AI 看的是结构清晰和来源可靠,跟 PageRank 关系不大。
Core principles
不产生垃圾内容,把已有内容结构化。 所有改动应提供页面上还没有的信息,否则就是注水。
Key techniques
| 技术 | 作用 | 优先级 |
|---|---|---|
| robots.txt 爬虫分类 | 允许搜索/用户触发爬虫,屏蔽训练/未声明爬虫 | 高 |
| llms.txt / llms-full.txt | 给 AI 的站点入口文档 | 高 |
| Markdown 路由 | 让 Agent 直接获取 Markdown 版本 | 中 |
| 搜索引擎索引提交 | Google / Bing / Perplexity | 中 |
Evidence across sources
| Source | Key Claim | Relevance |
|---|---|---|
| Tw93 — AI 搜索可见性完全指南 | 83% AI Overview 引用来自前 10 之外;结构化 > 排名 | Core insight |
| Tw93 — 你不知道的 GEO | llms.txt 互相引用形成网状结构;研究数据验证具体性+权威引用的效果 | Implementation detail |
Research summary
Princeton/IIT Delhi GEO 论文核心发现:权威引用 +115%,具体性 +50%,百科型页面影响力是新闻的 3 倍。无效做法:无规范支持的 meta 标签、HTML 注释提示、cloaking。
详细实现指南
一、robots.txt — 区分爬虫类型
AI 爬虫按用途分为四类,策略应不同:
| 爬虫类型 | 用途 | 例子 | 建议策略 |
|---|---|---|---|
| 训练爬虫 | 拿内容训练模型 | GPTBot, ClaudeBot, Meta-ExternalAgent | 按需屏蔽 |
| 搜索/检索爬虫 | 实时抓取回答用户问题 | OAI-SearchBot, Claude-SearchBot, PerplexityBot | 主动允许 |
| 用户触发爬虫 | 用户粘贴 URL 时触发 | ChatGPT-User, Claude-User, Perplexity-User | 主动允许 |
| 退出标识 | 声明退出 AI 训练的信号 | Google-Extended, Applebot-Extended | 按意愿配置 |
| 未声明爬虫 | 不表明身份,不一定遵守规则 | Bytespider, Grok 爬虫 | 建议屏蔽 |
搜索爬虫决定你的内容能否出现在 AI 搜索结果里。一刀切屏蔽会把搜索引用也断掉。
二、llms.txt — AI 优先读取的站点入口
在站点根目录放置 Markdown 格式的 llms.txt,写清楚站点做什么、关键页面、作者。AI 检索时优先读取。
llms.txt 互相引用形成网状结构——AI 从任意入口进入都能顺着链接找到其他内容。BuiltWith 追踪到 84 万+ 网站已部署,但 SE Ranking 调研的 30 万域名中采用率仅 10%,仍有先发优势。
提交到目录:directory.llmstxt.cloud、llmstxt.site、GitHub llms-txt-hub。
Markdown 路由:在页面 <head> 里加 <link rel="alternate" type="text/markdown" href="/page.md" />,Claude Code 和 Cursor 获取文档时已会发送 Accept: text/markdown header。
三、AI 专属知识端点 — 不是给人看的
与其等 AI 零散抓取,不如给它一个集中的结构化入口:
| 层级 | 文件 | 内容 | 大小 |
|---|---|---|---|
| 概览 | llms.txt | 站点一句话描述 + 关键链接 | <1KB |
| 完整版 | llms-full.txt | 项目描述、FAQ、竞品对比、README 摘录 | 30-60KB |
| 项目页 | /projects/name.md | 自包含文档:摘要、特性、场景、安装命令 | 可变 |
| 数据 API | /api/*.json | 实时 stars/forks/releases 等结构化数据 | 可变 |
Tw93 的实现 Yobi(呼び,"呼唤")使用 Next.js + Vercel,数据从 GitHub API 实时拉取,ISR 缓存一小时刷新。JSON API 包含 /api/profile、/api/projects、/api/blog、/api/weekly。
子域名权重问题:AI 爬虫发现 example.com 不一定会自动找 docs.example.com。关键结构化数据应镜像到主域名下。
四、搜索引擎入口
AI 搜索底层依赖传统搜索引擎索引:
- Google Search Console:验证域名、提交 sitemap、监控索引状态
- Bing Webmaster Tools:Copilot/DuckDuckGo/Yahoo 的 AI 搜索底层都是 Bing。注册后开启 IndexNow,有新内容时主动通知 Bing(POST 到 api.indexnow.org),几分钟内触发抓取
- Perplexity Publisher Program:pplx.ai/publisher-program,通过后有 80/20 收入分成和引用分析
五、研究数据:什么真正有效
Princeton 和 IIT Delhi 的 GEO 论文(KDD 2024)与后续实验发现:
| 因素 | 效果 | 来源 |
|---|---|---|
| 权威引用 | +115% AI 可见性 | Princeton GEO |
| 相关统计数据 | +33% | Princeton GEO |
| 直接引用可信来源 | +43% | Princeton GEO |
| 具体性(真实数据、清晰定义、横向对比) | +50% vs 泛泛而谈 | geo-citation-lab |
| 内容长度(1000-3000 词) | 被引用页面平均 ~2000 词,低影响力页面仅 170 词 | Ahrefs |
| 语义相似的标题 | 引用率显著更高 | Ahrefs |
| 描述性自然语言 URL | 引用率高于不透明 ID | Ahrefs |
| 百科型/解释型页面 | 影响力是新闻页面的 3 倍 | geo-citation-lab |
无效做法(数据验证):
<meta name="ai-content-url">和<meta name="llms">— 无规范支持/.well-known/ai.txt— 多个竞争提案,无实际采用- HTML 注释里放 AI 提示 — 解析器在 AI 读到之前就剥掉了
- User-Agent 嗅探返回不同内容 — cloaking,Google 会惩罚
- 纯 FAQ 格式 — 数据说反而有害
JSON-LD 局限性:SearchVIU 实验表明,五个主流 AI 系统均未读懂 JSON-LD 的语义结构,LLM 只是把它当普通文本读。唯一确认有用的是 Bing/Copilot 的索引富化路径。保留即可,但别指望 ChatGPT 或 Claude 因此多引用你。
六、被检索到不等于被引用
ChatGPT 检索到的页面里只有 15% 最终出现在回答中,85% 从未被引用。进入检索池只是第一关。
品牌被第三方引用的概率是被自己域名引用的 6.5 倍——Reddit、Hacker News 上的讨论比自己说自己有效得多。llms.txt 的价值在于:即使对话发生在第三方平台,模型也有一个可引用的锚点。
七、与 Harness Engineering 的对应
| Harness Engineering 概念 | AI 搜索可见性实现 |
|---|---|
| "哪段文字应该复制给 Agent"(Karpathy) | llms.txt 就是给 Agent 复制粘贴的文字 |
| Agent-first 文档格式 | llms-full.txt + JSON API |
| Sensors(感知世界的接口) | llms.txt 是 AI 的 sensor |
| 知识版本化、存在于 repo 中 | GitHub API 实时拉取数据 |
| 约束比指令有效 | robots.txt 区分搜索/训练爬虫是机械约束 |
Tw93 的方法论本质上就是 Harness Engineering 在"AI 搜索"这个具体场景的落地:设计 AI 代理访问你内容的环境。
Harness Engineering correspondence
llms.txt 就是 Karpathy "哪段文字应该复制给 Agent" 的具体实现。Tw93 的方法论是 Harness Engineering 在"AI 搜索"场景的落地。
Open questions
- AI 引用归因目前还不靠谱(CJR/Tow Center 测试 200 条引用,153 条有误)。结构化让内容"可被获取",但"被准确引用"仍取决于模型。
- 中文内容在全球引用样本中占比极低,面向国际用户的项目是否必须优先英文版。
- llms.txt 标准仍在早期,不同平台是否会分化出互不兼容的变体。
Related
- AI 搜索可见性 — 深度实践指南 — 完整实现细节、研究数据、技术表格
- Karpathy Software 3.0 — "哪段文字应该复制给 Agent"
- LLM Wiki 升级计划 — Per-page wiki API 与此方法论一致
- Agent Memory vs Context Substrate — llms.txt 本质是外部化的 context substrate
- product-trends/overview — AI 原生搜索作为一个产品趋势