如何为 AI 爬虫配置 robots.txt

你的 robots.txt 文件是网站的守门人。几十年来，它控制着哪些传统搜索爬虫可以访问你的页面。现在它在 AI 搜索可见度方面扮演着同样关键的角色。如果你的 robots.txt 屏蔽了 AI 爬虫，无论你的内容多好，对 ChatGPT、Claude、Perplexity 和 Gemini 来说都是不可见的。本指南涵盖了在 AI 搜索时代配置 robots.txt 所需的一切知识。

为什么 robots.txt 比以往更重要

在传统 SEO 时代，屏蔽一个爬虫只是个小问题——你可能在一个搜索引擎中失去一些可见度。在 AI 时代，屏蔽一个 AI 爬虫意味着在该 AI 引擎的回答中完全不可见。没有部分可见度。如果 GPTBot 无法爬取你的页面，ChatGPT 永远不会引用它。

风险更高，因为 AI 搜索正在快速增长。ChatGPT、Perplexity、Gemini 和 Claude 每天共同处理数十亿次查询。每个都使用自己的爬虫，每个都独立遵守你的 robots.txt 指令。一个配置错误的 robots.txt 可以悄无声息地屏蔽你的网站所有 AI 搜索流量。

你需要了解的 AI 爬虫

以下是主要的 AI 爬虫及其驱动的产品：

GPTBot — OpenAI 用于 ChatGPT 搜索的爬虫。User-agent 字符串：GPTBot。由于 ChatGPT 拥有 3 亿以上周活跃用户的庞大用户群，这是最值得允许的 AI 爬虫。
ClaudeBot — Anthropic 用于 Claude 网络搜索功能的爬虫。User-agent 字符串：ClaudeBot。随着 Claude 的网络搜索在专业人士和开发者中的增长，重要性日益提高。
PerplexityBot — Perplexity 的专用网络爬虫。User-agent 字符串：PerplexityBot。对于在 Perplexity 重引用答案引擎中的可见度至关重要。
Google-Extended — Google 独立于标准 Googlebot 的 AI/ML 专用爬虫。User-agent 字符串：Google-Extended。控制你的内容是否出现在 Google 的 AI 概览（原 SGE）中。
Bytespider — 字节跳动用于 AI 训练和搜索功能的爬虫。User-agent 字符串：Bytespider。与全球 AI 搜索可见度相关。

选择性屏蔽：当你想限制 AI 访问时

一些网站可能想允许 AI 爬虫访问公开内容，同时屏蔽某些目录。这在拥有付费内容、私人用户区域或不希望 AI 模型训练的内容的网站中很常见：

User-agent: GPTBot
Allow: /blog/
Allow: /guides/
Disallow: /premium/
Disallow: /account/

User-agent: ClaudeBot
Allow: /blog/
Allow: /guides/
Disallow: /premium/
Disallow: /account/

这种方法让你在公开内容上受益于 AI 引用，同时保护私有或付费区域。要有策略——屏蔽你最好的内容不让 AI 爬虫访问，就是屏蔽你获得 AI 引用的最佳机会。

需要避免的常见错误

这些是我们在 GEO 审计中最常看到的 robots.txt 错误：

通配符屏蔽 — 使用 User-agent: * 加 Disallow: / 会屏蔽所有爬虫，包括 AI 机器人。许多网站在只想屏蔽特定恶意机器人时无意中这样做了。
CDN 级别屏蔽 — Cloudflare、AWS WAF 和 Akamai 等服务可以在网络层面屏蔽 AI 爬虫，甚至在它们到达你的 robots.txt 之前。需要单独检查你的 CDN 和 WAF 设置。
CMS 默认设置 — 一些流行的 CMS 平台（WordPress 插件、Wix、Squarespace）已经开始默认添加 AI 机器人屏蔽。即使你没有手动更改 robots.txt，也要审计你的 CMS 设置。
缺少站点地图引用 — 你的 robots.txt 应该包含一个 Sitemap: 指令指向你的 XML 站点地图。AI 爬虫使用它来发现和优先爬取页面。

测试你的配置

更新 robots.txt 后，验证它是否正常工作。检查该文件是否可以通过浏览器在 yourdomain.com/robots.txt 访问，返回 200 状态码，并包含每个 AI 爬虫的正确指令。

运行免费 GEO 扫描来即时验证你的 robots.txt AI 爬虫配置：免费运行 GEO 扫描