Skip to content
Back/Harness Engineering

AI 搜索可见性 — 让 AI 能发现和理解你的内容

View in Graph
Updated 2026-05-11
3 min read
669 words

AI 搜索可见性

What it is

AI 搜索可见性(Generative Engine Optimization, GEO)是一组让 AI 检索系统能准确发现、理解和引用你的内容的技术实践。它与传统 SEO 的根本区别在于:目标不是排名,而是让模型在生成回答时把你的内容当作可信来源。

Why it matters

Tw93 的实验和后续研究数据表明,83% 的 AI Overview 引用来自排名前 10 之外的页面。AI 看的是结构清晰和来源可靠,跟 PageRank 关系不大。

Core principles

不产生垃圾内容,把已有内容结构化。 所有改动应提供页面上还没有的信息,否则就是注水。

Key techniques

技术 作用 优先级
robots.txt 爬虫分类 允许搜索/用户触发爬虫,屏蔽训练/未声明爬虫
llms.txt / llms-full.txt 给 AI 的站点入口文档
Markdown 路由 让 Agent 直接获取 Markdown 版本
搜索引擎索引提交 Google / Bing / Perplexity

Evidence across sources

Source Key Claim Relevance
Tw93 — AI 搜索可见性完全指南 83% AI Overview 引用来自前 10 之外;结构化 > 排名 Core insight
Tw93 — 你不知道的 GEO llms.txt 互相引用形成网状结构;研究数据验证具体性+权威引用的效果 Implementation detail

Research summary

Princeton/IIT Delhi GEO 论文核心发现:权威引用 +115%,具体性 +50%,百科型页面影响力是新闻的 3 倍。无效做法:无规范支持的 meta 标签、HTML 注释提示、cloaking。

详细实现指南

一、robots.txt — 区分爬虫类型

AI 爬虫按用途分为四类,策略应不同:

爬虫类型 用途 例子 建议策略
训练爬虫 拿内容训练模型 GPTBot, ClaudeBot, Meta-ExternalAgent 按需屏蔽
搜索/检索爬虫 实时抓取回答用户问题 OAI-SearchBot, Claude-SearchBot, PerplexityBot 主动允许
用户触发爬虫 用户粘贴 URL 时触发 ChatGPT-User, Claude-User, Perplexity-User 主动允许
退出标识 声明退出 AI 训练的信号 Google-Extended, Applebot-Extended 按意愿配置
未声明爬虫 不表明身份,不一定遵守规则 Bytespider, Grok 爬虫 建议屏蔽

搜索爬虫决定你的内容能否出现在 AI 搜索结果里。一刀切屏蔽会把搜索引用也断掉。

二、llms.txt — AI 优先读取的站点入口

在站点根目录放置 Markdown 格式的 llms.txt,写清楚站点做什么、关键页面、作者。AI 检索时优先读取。

llms.txt 互相引用形成网状结构——AI 从任意入口进入都能顺着链接找到其他内容。BuiltWith 追踪到 84 万+ 网站已部署,但 SE Ranking 调研的 30 万域名中采用率仅 10%,仍有先发优势。

提交到目录:directory.llmstxt.cloud、llmstxt.site、GitHub llms-txt-hub。

Markdown 路由:在页面 <head> 里加 <link rel="alternate" type="text/markdown" href="/page.md" />,Claude Code 和 Cursor 获取文档时已会发送 Accept: text/markdown header。

三、AI 专属知识端点 — 不是给人看的

与其等 AI 零散抓取,不如给它一个集中的结构化入口:

层级 文件 内容 大小
概览 llms.txt 站点一句话描述 + 关键链接 <1KB
完整版 llms-full.txt 项目描述、FAQ、竞品对比、README 摘录 30-60KB
项目页 /projects/name.md 自包含文档:摘要、特性、场景、安装命令 可变
数据 API /api/*.json 实时 stars/forks/releases 等结构化数据 可变

Tw93 的实现 Yobi(呼び,"呼唤")使用 Next.js + Vercel,数据从 GitHub API 实时拉取,ISR 缓存一小时刷新。JSON API 包含 /api/profile/api/projects/api/blog/api/weekly

子域名权重问题:AI 爬虫发现 example.com 不一定会自动找 docs.example.com。关键结构化数据应镜像到主域名下。

四、搜索引擎入口

AI 搜索底层依赖传统搜索引擎索引:

  • Google Search Console:验证域名、提交 sitemap、监控索引状态
  • Bing Webmaster Tools:Copilot/DuckDuckGo/Yahoo 的 AI 搜索底层都是 Bing。注册后开启 IndexNow,有新内容时主动通知 Bing(POST 到 api.indexnow.org),几分钟内触发抓取
  • Perplexity Publisher Program:pplx.ai/publisher-program,通过后有 80/20 收入分成和引用分析

五、研究数据:什么真正有效

Princeton 和 IIT Delhi 的 GEO 论文(KDD 2024)与后续实验发现:

因素 效果 来源
权威引用 +115% AI 可见性 Princeton GEO
相关统计数据 +33% Princeton GEO
直接引用可信来源 +43% Princeton GEO
具体性(真实数据、清晰定义、横向对比) +50% vs 泛泛而谈 geo-citation-lab
内容长度(1000-3000 词) 被引用页面平均 ~2000 词,低影响力页面仅 170 词 Ahrefs
语义相似的标题 引用率显著更高 Ahrefs
描述性自然语言 URL 引用率高于不透明 ID Ahrefs
百科型/解释型页面 影响力是新闻页面的 3 倍 geo-citation-lab

无效做法(数据验证):

  • <meta name="ai-content-url"><meta name="llms"> — 无规范支持
  • /.well-known/ai.txt — 多个竞争提案,无实际采用
  • HTML 注释里放 AI 提示 — 解析器在 AI 读到之前就剥掉了
  • User-Agent 嗅探返回不同内容 — cloaking,Google 会惩罚
  • 纯 FAQ 格式 — 数据说反而有害

JSON-LD 局限性:SearchVIU 实验表明,五个主流 AI 系统均未读懂 JSON-LD 的语义结构,LLM 只是把它当普通文本读。唯一确认有用的是 Bing/Copilot 的索引富化路径。保留即可,但别指望 ChatGPT 或 Claude 因此多引用你。

六、被检索到不等于被引用

ChatGPT 检索到的页面里只有 15% 最终出现在回答中,85% 从未被引用。进入检索池只是第一关。

品牌被第三方引用的概率是被自己域名引用的 6.5 倍——Reddit、Hacker News 上的讨论比自己说自己有效得多。llms.txt 的价值在于:即使对话发生在第三方平台,模型也有一个可引用的锚点。

七、与 Harness Engineering 的对应

Harness Engineering 概念 AI 搜索可见性实现
"哪段文字应该复制给 Agent"(Karpathy) llms.txt 就是给 Agent 复制粘贴的文字
Agent-first 文档格式 llms-full.txt + JSON API
Sensors(感知世界的接口) llms.txt 是 AI 的 sensor
知识版本化、存在于 repo 中 GitHub API 实时拉取数据
约束比指令有效 robots.txt 区分搜索/训练爬虫是机械约束

Tw93 的方法论本质上就是 Harness Engineering 在"AI 搜索"这个具体场景的落地:设计 AI 代理访问你内容的环境

Harness Engineering correspondence

llms.txt 就是 Karpathy "哪段文字应该复制给 Agent" 的具体实现。Tw93 的方法论是 Harness Engineering 在"AI 搜索"场景的落地。

Open questions

  • AI 引用归因目前还不靠谱(CJR/Tow Center 测试 200 条引用,153 条有误)。结构化让内容"可被获取",但"被准确引用"仍取决于模型。
  • 中文内容在全球引用样本中占比极低,面向国际用户的项目是否必须优先英文版。
  • llms.txt 标准仍在早期,不同平台是否会分化出互不兼容的变体。

Sources

Synthesized from 3 sources
  • Tw93 — AI 搜索可见性完全指南Supporting source listed by this page.Whole pagemediumbody
  • Tw93 — 你不知道的 GEOSupporting source listed by this page.Whole pagemediumbody
  • AI 搜索可见性完全指南 - Tw93Supporting source listed by this page.Whole pagemediumabsorb log

Evolution

1 event
  1. absorbed

    Derived from source material

    This page is currently synthesized from 3 sources.

    From Tw93 — AI 搜索可见性完全指南, Tw93 — 你不知道的 GEO, AI 搜索可见性完全指南 - Tw93To AI 搜索可见性 — 让 AI 能发现和理解你的内容
    Sources: raw/to-learn/AI 搜索可见性完全指南 - Tw93 · raw/to-learn/你不知道的 GEO:AI 可见性的原理、实践与取舍 · raw/to-learn/AI 搜索可见性完全指南 - Tw93.md

Linked from