Robots.txt AI 机器人访问控制

控制哪些 AI 爬虫可以访问你的网站。

这项检查做什么

robots.txt 文件是 AI 爬虫在索引你的内容前首先读取的文件。如果 GPTBot、ClaudeBot 或 PerplexityBot 被屏蔽,你的网站将不会出现在 AI 生成的回答中。此检查验证你的 robots.txt 是否允许主要 AI 用户代理访问。

为什么对 AI 搜索很重要

ChatGPT、Perplexity、Claude 等 AI 搜索引擎依赖网络爬虫来索引内容。与传统搜索引擎不同,屏蔽 AI 机器人意味着在对话式搜索结果中完全不可见。许多网站因过于严格的 robots.txt 规则而无意中屏蔽了 AI 爬虫。

我们如何评估

  1. 1从根域名获取并解析 robots.txt
  2. 2检查针对 GPTBot、ClaudeBot、PerplexityBot、Google-Extended 及其他 AI 用户代理的指令
  3. 3验证是否存在阻止 AI 爬虫访问的全局 Disallow 规则
  4. 4根据允许与屏蔽的 AI 机器人数量进行评分

优化建议

  • 在 robots.txt 中明确允许 GPTBot、ClaudeBot 和 PerplexityBot
  • 避免使用过于宽泛的 Disallow: / 规则屏蔽所有机器人
  • CMS 或插件更新后检查 robots.txt,因为它们可能添加限制性规则
  • 考虑添加 Crawl-delay 指令来管理 AI 爬虫负载,而非完全屏蔽

相关检查

在你的网站上测试此检查

运行免费 GEO 扫描,查看你的网站在「Robots.txt AI 机器人访问控制」上的表现。

免费扫描