博客

如何为 AI 爬虫配置 robots.txt

你的 robots.txt 文件是网站的守门人。几十年来,它控制着哪些传统搜索爬虫可以访问你的页面。现在它在 AI 搜索可见度方面扮演着同样关键的角色。如果你的 robots.txt 屏蔽了 AI 爬虫,无论你的内容多好,对 ChatGPT、Claude、Perplexity 和 Gemini 来说都是不可见的。本指南涵盖了在 AI 搜索时代配置 robots.txt 所需的一切知识。

为什么 robots.txt 比以往更重要

在传统 SEO 时代,屏蔽一个爬虫只是个小问题——你可能在一个搜索引擎中失去一些可见度。在 AI 时代,屏蔽一个 AI 爬虫意味着在该 AI 引擎的回答中完全不可见。没有部分可见度。如果 GPTBot 无法爬取你的页面,ChatGPT 永远不会引用它。

风险更高,因为 AI 搜索正在快速增长。ChatGPT、Perplexity、Gemini 和 Claude 每天共同处理数十亿次查询。每个都使用自己的爬虫,每个都独立遵守你的 robots.txt 指令。一个配置错误的 robots.txt 可以悄无声息地屏蔽你的网站所有 AI 搜索流量。

你需要了解的 AI 爬虫

以下是主要的 AI 爬虫及其驱动的产品:

  • GPTBot — OpenAI 用于 ChatGPT 搜索的爬虫。User-agent 字符串:GPTBot。由于 ChatGPT 拥有 3 亿以上周活跃用户的庞大用户群,这是最值得允许的 AI 爬虫。
  • ClaudeBot — Anthropic 用于 Claude 网络搜索功能的爬虫。User-agent 字符串:ClaudeBot。随着 Claude 的网络搜索在专业人士和开发者中的增长,重要性日益提高。
  • PerplexityBot — Perplexity 的专用网络爬虫。User-agent 字符串:PerplexityBot。对于在 Perplexity 重引用答案引擎中的可见度至关重要。
  • Google-Extended — Google 独立于标准 Googlebot 的 AI/ML 专用爬虫。User-agent 字符串:Google-Extended。控制你的内容是否出现在 Google 的 AI 概览(原 SGE)中。
  • Bytespider — 字节跳动用于 AI 训练和搜索功能的爬虫。User-agent 字符串:Bytespider。与全球 AI 搜索可见度相关。

推荐配置

为了最大化 AI 搜索可见度,在你的 robots.txt 文件中添加以下指令:

# 允许 AI 爬虫以获得 AI 搜索可见度
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Bytespider
Allow: /

# 标准搜索爬虫
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

将此文件放在你的网站根目录,使其可在 yourdomain.com/robots.txt 访问。确保它返回 200 状态码——某些 AI 机器人会将 404 或 500 响应视为所有爬虫被屏蔽。

选择性屏蔽:当你想限制 AI 访问时

一些网站可能想允许 AI 爬虫访问公开内容,同时屏蔽某些目录。这在拥有付费内容、私人用户区域或不希望 AI 模型训练的内容的网站中很常见:

User-agent: GPTBot
Allow: /blog/
Allow: /guides/
Disallow: /premium/
Disallow: /account/

User-agent: ClaudeBot
Allow: /blog/
Allow: /guides/
Disallow: /premium/
Disallow: /account/

这种方法让你在公开内容上受益于 AI 引用,同时保护私有或付费区域。要有策略——屏蔽你最好的内容不让 AI 爬虫访问,就是屏蔽你获得 AI 引用的最佳机会。

需要避免的常见错误

这些是我们在 GEO 审计中最常看到的 robots.txt 错误:

  1. 通配符屏蔽 — 使用 User-agent: * 加 Disallow: / 会屏蔽所有爬虫,包括 AI 机器人。许多网站在只想屏蔽特定恶意机器人时无意中这样做了。
  2. CDN 级别屏蔽 — Cloudflare、AWS WAF 和 Akamai 等服务可以在网络层面屏蔽 AI 爬虫,甚至在它们到达你的 robots.txt 之前。需要单独检查你的 CDN 和 WAF 设置。
  3. CMS 默认设置 — 一些流行的 CMS 平台(WordPress 插件、Wix、Squarespace)已经开始默认添加 AI 机器人屏蔽。即使你没有手动更改 robots.txt,也要审计你的 CMS 设置。
  4. 缺少站点地图引用 — 你的 robots.txt 应该包含一个 Sitemap: 指令指向你的 XML 站点地图。AI 爬虫使用它来发现和优先爬取页面。

测试你的配置

更新 robots.txt 后,验证它是否正常工作。检查该文件是否可以通过浏览器在 yourdomain.com/robots.txt 访问,返回 200 状态码,并包含每个 AI 爬虫的正确指令。

运行免费 GEO 扫描来即时验证你的 robots.txt AI 爬虫配置: 免费运行 GEO 扫描

检查你的 AI 搜索就绪度

运行免费 GEO 扫描,查看你的网站在全部 11 项检查中的表现。

免费运行 GEO 扫描