AI 搜索可见性

What it is

AI 搜索可见性（Generative Engine Optimization, GEO）是一组让 AI 检索系统能准确发现、理解和引用你的内容的技术实践。它与传统 SEO 的根本区别在于：目标不是排名，而是让模型在生成回答时把你的内容当作可信来源。

Why it matters

Tw93 的实验和后续研究数据表明，83% 的 AI Overview 引用来自排名前 10 之外的页面。AI 看的是结构清晰和来源可靠，跟 PageRank 关系不大。

Core principles

不产生垃圾内容，把已有内容结构化。 所有改动应提供页面上还没有的信息，否则就是注水。

Key techniques

技术	作用	优先级
robots.txt 爬虫分类	允许搜索/用户触发爬虫，屏蔽训练/未声明爬虫	高
llms.txt / llms-full.txt	给 AI 的站点入口文档	高
Markdown 路由	让 Agent 直接获取 Markdown 版本	中
搜索引擎索引提交	Google / Bing / Perplexity	中

Evidence across sources

Source	Key Claim	Relevance
Tw93 — AI 搜索可见性完全指南	83% AI Overview 引用来自前 10 之外；结构化 > 排名	Core insight
Tw93 — 你不知道的 GEO	llms.txt 互相引用形成网状结构；研究数据验证具体性+权威引用的效果	Implementation detail

Research summary

Princeton/IIT Delhi GEO 论文核心发现：权威引用 +115%，具体性 +50%，百科型页面影响力是新闻的 3 倍。无效做法：无规范支持的 meta 标签、HTML 注释提示、cloaking。

详细实现指南

一、robots.txt — 区分爬虫类型

AI 爬虫按用途分为四类，策略应不同：

爬虫类型	用途	例子	建议策略
训练爬虫	拿内容训练模型	GPTBot, ClaudeBot, Meta-ExternalAgent	按需屏蔽
搜索/检索爬虫	实时抓取回答用户问题	OAI-SearchBot, Claude-SearchBot, PerplexityBot	主动允许
用户触发爬虫	用户粘贴 URL 时触发	ChatGPT-User, Claude-User, Perplexity-User	主动允许
退出标识	声明退出 AI 训练的信号	Google-Extended, Applebot-Extended	按意愿配置
未声明爬虫	不表明身份，不一定遵守规则	Bytespider, Grok 爬虫	建议屏蔽

搜索爬虫决定你的内容能否出现在 AI 搜索结果里。一刀切屏蔽会把搜索引用也断掉。

二、llms.txt — AI 优先读取的站点入口

在站点根目录放置 Markdown 格式的 llms.txt，写清楚站点做什么、关键页面、作者。AI 检索时优先读取。

llms.txt 互相引用形成网状结构——AI 从任意入口进入都能顺着链接找到其他内容。BuiltWith 追踪到 84 万+ 网站已部署，但 SE Ranking 调研的 30 万域名中采用率仅 10%，仍有先发优势。

提交到目录：directory.llmstxt.cloud、llmstxt.site、GitHub llms-txt-hub。

Markdown 路由：在页面 <head> 里加 <link rel="alternate" type="text/markdown" href="/page.md" />，Claude Code 和 Cursor 获取文档时已会发送 Accept: text/markdown header。

三、AI 专属知识端点 — 不是给人看的

与其等 AI 零散抓取，不如给它一个集中的结构化入口：

层级	文件	内容	大小
概览	llms.txt	站点一句话描述 + 关键链接	<1KB
完整版	llms-full.txt	项目描述、FAQ、竞品对比、README 摘录	30-60KB
项目页	/projects/name.md	自包含文档：摘要、特性、场景、安装命令	可变
数据 API	/api/*.json	实时 stars/forks/releases 等结构化数据	可变

Tw93 的实现 Yobi（呼び，"呼唤"）使用 Next.js + Vercel，数据从 GitHub API 实时拉取，ISR 缓存一小时刷新。JSON API 包含 /api/profile、/api/projects、/api/blog、/api/weekly。

子域名权重问题：AI 爬虫发现 example.com 不一定会自动找 docs.example.com。关键结构化数据应镜像到主域名下。

四、搜索引擎入口

AI 搜索底层依赖传统搜索引擎索引：

Google Search Console：验证域名、提交 sitemap、监控索引状态
Bing Webmaster Tools：Copilot/DuckDuckGo/Yahoo 的 AI 搜索底层都是 Bing。注册后开启 IndexNow，有新内容时主动通知 Bing（POST 到 api.indexnow.org），几分钟内触发抓取
Perplexity Publisher Program：pplx.ai/publisher-program，通过后有 80/20 收入分成和引用分析

五、研究数据：什么真正有效

Princeton 和 IIT Delhi 的 GEO 论文（KDD 2024）与后续实验发现：

因素	效果	来源
权威引用	+115% AI 可见性	Princeton GEO
相关统计数据	+33%	Princeton GEO
直接引用可信来源	+43%	Princeton GEO
具体性（真实数据、清晰定义、横向对比）	+50% vs 泛泛而谈	geo-citation-lab
内容长度（1000-3000 词）	被引用页面平均 ~2000 词，低影响力页面仅 170 词	Ahrefs
语义相似的标题	引用率显著更高	Ahrefs
描述性自然语言 URL	引用率高于不透明 ID	Ahrefs
百科型/解释型页面	影响力是新闻页面的 3 倍	geo-citation-lab

无效做法（数据验证）：

<meta name="ai-content-url"> 和 <meta name="llms"> — 无规范支持
/.well-known/ai.txt — 多个竞争提案，无实际采用
HTML 注释里放 AI 提示 — 解析器在 AI 读到之前就剥掉了
User-Agent 嗅探返回不同内容 — cloaking，Google 会惩罚
纯 FAQ 格式 — 数据说反而有害

JSON-LD 局限性：SearchVIU 实验表明，五个主流 AI 系统均未读懂 JSON-LD 的语义结构，LLM 只是把它当普通文本读。唯一确认有用的是 Bing/Copilot 的索引富化路径。保留即可，但别指望 ChatGPT 或 Claude 因此多引用你。

六、被检索到不等于被引用

ChatGPT 检索到的页面里只有 15% 最终出现在回答中，85% 从未被引用。进入检索池只是第一关。

品牌被第三方引用的概率是被自己域名引用的 6.5 倍——Reddit、Hacker News 上的讨论比自己说自己有效得多。llms.txt 的价值在于：即使对话发生在第三方平台，模型也有一个可引用的锚点。

七、与 Harness Engineering 的对应

Harness Engineering 概念	AI 搜索可见性实现
"哪段文字应该复制给 Agent"（Karpathy）	llms.txt 就是给 Agent 复制粘贴的文字
Agent-first 文档格式	llms-full.txt + JSON API
Sensors（感知世界的接口）	llms.txt 是 AI 的 sensor
知识版本化、存在于 repo 中	GitHub API 实时拉取数据
约束比指令有效	robots.txt 区分搜索/训练爬虫是机械约束

Tw93 的方法论本质上就是 Harness Engineering 在"AI 搜索"这个具体场景的落地：设计 AI 代理访问你内容的环境。

Harness Engineering correspondence

llms.txt 就是 Karpathy "哪段文字应该复制给 Agent" 的具体实现。Tw93 的方法论是 Harness Engineering 在"AI 搜索"场景的落地。

Open questions

AI 引用归因目前还不靠谱（CJR/Tow Center 测试 200 条引用，153 条有误）。结构化让内容"可被获取"，但"被准确引用"仍取决于模型。
中文内容在全球引用样本中占比极低，面向国际用户的项目是否必须优先英文版。
llms.txt 标准仍在早期，不同平台是否会分化出互不兼容的变体。

AI 搜索可见性 — 深度实践指南 — 完整实现细节、研究数据、技术表格
Karpathy Software 3.0 — "哪段文字应该复制给 Agent"
LLM Wiki 升级计划 — Per-page wiki API 与此方法论一致
Agent Memory vs Context Substrate — llms.txt 本质是外部化的 context substrate
product-trends/overview — AI 原生搜索作为一个产品趋势

AI 搜索可见性 — 让 AI 能发现和理解你的内容

AI 搜索可见性

What it is

Why it matters

Core principles

Key techniques

Evidence across sources

Research summary

详细实现指南

一、robots.txt — 区分爬虫类型

二、llms.txt — AI 优先读取的站点入口

三、AI 专属知识端点 — 不是给人看的

四、搜索引擎入口

五、研究数据：什么真正有效

六、被检索到不等于被引用

七、与 Harness Engineering 的对应

Harness Engineering correspondence

Open questions

Sources

Evolution

Derived from source material

Linked from

AI 搜索可见性

What it is

Why it matters

Core principles

Key techniques

Evidence across sources

Research summary

详细实现指南

一、robots.txt — 区分爬虫类型

二、llms.txt — AI 优先读取的站点入口

三、AI 专属知识端点 — 不是给人看的

四、搜索引擎入口

五、研究数据：什么真正有效

六、被检索到不等于被引用

七、与 Harness Engineering 的对应

Harness Engineering correspondence

Open questions

Related

Sources

Evolution

Derived from source material

Linked from