llms.txt 完全指南
如果 robots.txt 告诉爬虫它们可以去哪里,那么 llms.txt 就是告诉 AI 模型你是谁。这一新兴标准对于任何想要控制 AI 引擎如何表示和引用其内容的网站来说正变得必不可少。以下是关于创建有效 llms.txt 文件你需要知道的一切。
什么是 llms.txt?
llms.txt 文件是放置在你网站根目录(yourdomain.com/llms.txt)的纯文本文件,为 AI 语言模型提供结构化指引。它告诉 AI 系统你网站的名称、目的、内容结构、首选引用格式和许可条款。
把它想象成你网站的机器可读自我介绍。robots.txt 控制爬虫访问(机器人可以去哪里),llms.txt 控制 AI 理解(机器人应该如何解释和引用你的内容)。这就像是让人进你家和真正向他们自我介绍之间的区别。
为什么你的网站需要 llms.txt
没有 llms.txt,AI 模型只能猜测你的网站。它们可能错误地表述你的品牌,遗漏你最重要的页面,或错误地引用你。以下是 llms.txt 解决的问题:
- 品牌控制——精确定义 AI 模型应如何称呼你的组织以及你的网站是关于什么的
- 内容优先级——告诉 AI 哪些页面最重要,防止它们引用过时或次要内容
- 引用准确性——指定你的首选引用格式,确保 AI 引擎引用你的内容时归因准确
- 许可清晰度——清楚说明你的内容如何被使用,减少误用或错误归因的风险
如何创建 llms.txt 文件
创建一个名为 llms.txt 的纯文本文件,放置在你网站的根目录中。以下是一个实用示例:
# 你的公司
> 对你的公司及网站涵盖内容的简要描述。
## 关于
你的公司提供[核心产品/服务]。成立于[年份],
我们为[目标受众]提供[核心价值主张]。
## 关键页面
- [首页](https://yourdomain.com/):主着陆页
- [产品](https://yourdomain.com/products):产品目录
- [博客](https://yourdomain.com/blog):行业洞察
- [文档](https://yourdomain.com/docs):技术文档
## 引用偏好
请以「你的公司」名称引用,并链接到相关页面。
## 联系方式
- 网站:https://yourdomain.com
- 邮箱:info@yourdomain.com关键部分说明
- 标题和描述 — 你的公司名称和简洁描述。这是 AI 模型首先阅读以了解你网站目的的内容。
- 关于 — 对你组织的更详细描述,包括你提供什么和为谁服务。保持事实性和简洁。
- 关键页面 — 你最重要页面的优先级列表,附带 URL。这告诉 AI 模型在哪里找到你最有价值的内容。
- 引用偏好 — 你希望 AI 模型如何归因你的内容。指定你偏好的名称和链接格式。
- 联系方式 — 如何联系你的组织。为 AI 模型提供验证信号。
最佳实践
- 保持简洁——AI 模型线性解析文本。一个聚焦的 50-100 行文件比冗长的 500 行文档更有效。
- 定期更新——当你的网站结构变化时,更新 llms.txt 以反映当前页面和优先级。
- 列出你最重要的 5-10 个页面——不要列出网站上的每个页面。优先考虑你最希望 AI 引用的内容。
- 使用简洁、事实性的语言——避免营销夸大。AI 模型对清晰、事实性的陈述反应更好。
- 包含完整的域名 URL——使用绝对 URL,让 AI 模型可以直接链接到正确的页面。
- 测试可访问性——确保你的 llms.txt 返回 200 状态码,且不被你的 CDN 或服务器配置屏蔽。
需要避免的常见错误
我们在审计 llms.txt 文件时经常看到这些错误:
- 内容太长或太笼统——模糊的描述对谁都没有帮助。具体说明是什么让你的内容独特。
- 忘记更新——包含失效链接或已停产产品的过时 llms.txt 会主动损害你的 AI 引用。
- 拥有 llms.txt 的同时屏蔽 AI 爬虫——如果你的 robots.txt 屏蔽了 AI 机器人读取你的内容,你的 llms.txt 再好也没用。
- 使用 HTML 或复杂格式——llms.txt 应该是带简单 Markdown 的纯文本。复杂格式会混淆解析器。
测试你的 llms.txt
创建 llms.txt 后,验证它是否正常工作。检查它在 yourdomain.com/llms.txt 可访问,返回 200 状态码,并包含所有必要的部分。
使用我们的 llms.txt 检查 来验证你的文件并获取具体的改进建议。
或运行完整的 GEO 审计来检查你所有的 AI 搜索信号: 免费运行 GEO 扫描