llms.txt 编写规范指南
什么是 llms.txt?
llms.txt 是由 Answer.AI 的 Jeremy Howard 提出的一种标准,类似于 robots.txt,但专门为大型语言模型(LLM)设计。它是一个放置在网站根目录的 Markdown 文件,为 LLM 提供结构化指导,说明网站上哪些内容最重要、最可靠、最值得引用。
llms.txt vs robots.txt vs sitemap.xml
| 特性 | robots.txt | sitemap.xml | llms.txt |
|---|---|---|---|
| 用途 | 控制爬虫访问权限 | 搜索引擎页面发现 | 为 LLM 提供精选内容指南 |
| 格式 | 纯文本指令 | XML | Markdown(人类和 AI 可读) |
| 主要优势 | 阻止不必要的爬虫 | 更好的 SEO 索引 | 更好的 AI 答案和引用 |
为什么需要 llms.txt?
- 引导 AI 模型关注最重要的内容
- 提高正确引用和归属的机会
- 通过提供权威来源减少幻觉
- 使内容更易于处理且对 LLM 来说更便宜(token 方面)
- 为答案引擎优化(AEO)做好准备
重要提示:llms.txt 不是访问控制文件
与 robots.txt 不同,llms.txt 不阻止或限制机器人。它是一个推荐层,而不是权限系统。
- ❌ 它不能阻止 AI 访问您的内容
- ❌ 它不定义法律使用权
- ❌ 爬虫不会强制执行
- ✅ 它帮助 AI 模型找到高质量、权威的来源
- ✅ 它改进了内容的理解和引用方式
文件位置
llms.txt 必须放置在域名的根目录:
https://yourdomain.com/llms.txt
就像 robots.txt 一样,它应该是公开可访问的。
基本结构
llms.txt 使用 Markdown 格式,遵循特定结构,既便于人类阅读,也易于 AI 模型解析。文件由三个主要部分组成:
- H1 标题:网站或项目名称
- 引用块:简短描述(电梯演讲)
- H2 章节:包含指向重要页面的命名链接
最小示例
# 项目名称 > 项目的简短描述,说明它提供什么服务或功能。 ## 文档 - [完整文档](https://example.com/docs/): 所有功能的完整文档 - [快速开始](https://example.com/getting-started/): 快速设置指南 ## 博客 - [技术博客](https://example.com/blog/): 教程、更新和技术文章 ## 可选 - [更新日志](https://example.com/changelog/): 版本历史和发布说明
关键结构规则
1. H1 标题(必需,仅一个)
- 网站或产品的名称
- 必须是第一个元素
- 只能有一个 H1 标题
# 我的产品名称
2. 引用块(必需)
- 简要总结网站提供的服务
- 使用
>符号创建引用块 - 保持简洁明了(1-2 句话)
> 我们为全球企业提供 WordPress 插件和基于 Laravel 的 Web 应用程序开发服务。
3. H2 章节(分类链接)
- 使用 H2 标题创建命名的链接类别
- 常见类别:Docs(文档)、Products(产品)、Services(服务)、Blog(博客)、API 等
- 每个类别应该有明确的用途
## 文档 ## 产品 ## 服务 ## 博客
4. 链接格式
- 使用命名链接,格式:
[链接文本](URL): 简短描述 - 链接文本应该清晰描述目标页面
- 冒号后添加简短描述,说明页面内容
- 每个链接占一行
- [产品文档](https://example.com/docs/): 所有产品的完整指南和 API 参考 - [入门指南](https://example.com/start/): 5 分钟内完成设置
5. "Optional"(可选)章节
- 这是一个规范定义的信号
- 上下文窗口有限的 LLM 建议跳过此部分内容
- 用于放置低优先级内容
## Optional - [更新日志](https://example.com/changelog/): 产品更新历史 - [联系我们](https://example.com/contact/): 与团队取得联系
逐步编写指南
步骤 1:添加网站名称和描述
以 H1 标题和引用块开始,清楚地描述您的网站是关于什么的。这是 AI 首先阅读的内容。
# 我的产品 > 我们构建 WordPress 插件和基于 Laravel 的 Web 应用程序,服务于全球企业。
步骤 2:添加最重要的页面
在 H2 章节下组织关键页面。优先考虑文档、产品页面和您希望 AI 模型正确引用或参考的任何内容。
## 产品 - [产品 A](https://example.com/product-a/): 产品 A 的功能描述 - [产品 B](https://example.com/product-b/): 产品 B 的功能描述 ## 文档 - [完整文档](https://example.com/docs/): 所有产品的完整指南 ## 服务 - [定制开发](https://example.com/services/): 定制 Web 应用开发服务
步骤 3:添加可选章节用于低优先级内容
Optional 标题是一个规范定义的信号。如果上下文窗口有限,LLM 被建议跳过此部分的内容。
## Optional - [更新日志](https://example.com/changelog/): 产品更新历史 - [合作伙伴](https://example.com/partners/): 合作伙伴计划详情
步骤 4:链接到 Markdown 版本的关键页面(如果可用)
如果您有文档或博客文章的 .md 版本,链接到这些版本而不是或与 HTML 版本一起链接。Markdown 对 LLM 来说在 token 处理上要高效得多。
## 文档 - [入门指南 (Markdown)](https://example.com/docs/getting-started.md): Markdown 格式的设置指南
步骤 5:保持在 10KB 以下
规范建议保持 llms.txt 简洁。如果您有大量内容,请在此处总结并链接出去。目标是创建一个快速、权威的地图,而不是完整的内容转储。对于后者,使用 llms-full.txt。
什么是 llms-full.txt?
虽然 llms.txt 应该保持简洁,但 llms-full.txt 可以包含更详细、结构化版本的内容。
- llms.txt → 摘要 + 关键链接(快速阅读)
- llms-full.txt → 扩展内容(深度上下文)
这允许 AI 系统根据其上下文限制选择在快速概述和深度爬取之间。
完整实战示例
示例 1:WordPress 插件业务
# Codeboxr > Codeboxr 为全球企业构建 WordPress 插件和定制 Laravel Web 应用程序。我们的插件涵盖 HRM、请愿、预订、 job boards、电子邮件 SMTP 等。 ## 产品 - [CBX Petition for WordPress](https://codeboxr.com/product/cbx-petition-for-wordpress/): 创建和管理在线请愿和签名活动 - [CBX HRM](https://codeboxr.com/product/cbxhrm/): WordPress 的全功能人力资源管理插件 - [CBX Booking](https://codeboxr.com/product/cbx-booking/): WordPress 的预约和预订管理 ## 服务 - [Laravel 开发](https://codeboxr.com/laravel-development/): 可扩展的定制 Web 应用程序开发 - [WordPress 插件开发](https://codeboxr.com/wordpress-plugin-development/): 任何用例的定制插件开发 ## 文档 - [文档首页](https://codeboxr.com/docs/): 所有产品的指南、参考和教程 ## 博客 - [博客](https://codeboxr.com/blog/): 技术文章、插件更新和开发见解 ## Optional - [更新日志](https://codeboxr.com/changelog/): 版本历史和发布说明 - [联系我们](https://codeboxr.com/contact-us/): 与 Codeboxr 团队取得联系
示例 2:最小化单一产品网站
# MyPlugin > 一个轻量级 WordPress 插件,用于管理客户评论和推荐。 ## 文档 - [完整文档](https://myplugin.com/docs/): 完整的设置和配置指南 - [常见问题](https://myplugin.com/faq/): 常见问题的答案 ## Optional - [更新日志](https://myplugin.com/changelog/): 更新历史
示例 3:带有 API 文档的 SaaS 产品
# MySaaS Platform > 面向远程开发团队的项目管理 SaaS 工具。 ## 快速开始 - [快速启动指南](https://mysaas.com/docs/quickstart/): 5 分钟内完成设置 - [API 参考](https://mysaas.com/api/): 完整的 REST API 文档 ## 博客 - [工程博客](https://mysaas.com/blog/engineering/): 深入探讨我们如何构建 MySaaS ## Optional - [状态页面](https://status.mysaas.com/): 实时系统运行时间和事件历史
示例 4:代理机构或服务业务
# Acme Web Agency > 我们为美国和英国的中小企业设计和开发高性能网站和 Web 应用程序。 ## 服务 - [网页设计](https://acmeagency.com/web-design/): 定制网站设计服务 - [Laravel 开发](https://acmeagency.com/laravel/): 后端 API 和应用程序开发 ## 作品集 - [案例研究](https://acmeagency.com/case-studies/): 真实客户的真实成果 ## Optional - [关于我们](https://acmeagency.com/about/): 团队背景和公司历史
好坏示例对比
❌ 坏示例(太通用)
# 我的网站 > 欢迎来到我的网站。 ## 页面 - [首页](https://example.com) - [博客](https://example.com/blog)
问题:
- 描述过于模糊
- 没有提供有价值的信息
- 链接没有描述性文字
- 没有分类组织
✅ 好示例(LLM 优化)
# MyPlugin > 一个 WordPress 插件,用于管理带有结构化 schema 支持的已验证客户评论。 ## 文档 - [入门指南](https://example.com/docs/start): 设置和安装指南 - [Schema 集成](https://example.com/docs/schema): 通过结构化数据改进 SEO ## 博客 - [评论 Schema 工作原理](https://example.com/blog/review-schema): 深入技术解释
优点:
- 清晰的上下文和意图
- 高价值入口点
- 描述性的链接文本
- 有组织的分类
最佳实践
1. 保持简洁易读
- 使用清晰、简洁的语言
- 避免冗长的描述
- 每个链接的描述控制在 1-2 句话
2. 定期更新
- 随着 AI 政策的演变而更新
- 添加新功能时更新链接
- 移除过时或无效的链接
3. 与 robots.txt 结合使用
- llms.txt 提供内容指导
- robots.txt 控制爬虫访问
- 两者配合实现完整控制
4. 明确定义许可条款
- 如果需要,在文件中提及内容使用许可
- 链接到详细的许可协议页面
5. 避免规则矛盾
- 确保 llms.txt 与 robots.txt 不冲突
- 保持一致的内容策略
6. 优先链接 Markdown 格式
- Markdown 对 LLM 更高效(token 更少)
- 如果同时有 HTML 和 Markdown 版本,优先链接 Markdown
- 或者同时提供两个版本的链接
7. 使用描述性链接文本
- 避免使用"点击这里"、"更多信息"等模糊文本
- 使用能准确描述目标页面内容的文本
- 例如:"API 参考文档"而不是"文档"
8. 合理组织内容层次
- 最重要的内容放在前面
- 按功能或主题分类
- 使用 Optional 章节存放次要内容
高级技巧
1. 为不同受众创建多个入口点
## 开发者资源 - [API 文档](https://example.com/api/): 完整的 API 参考 - [SDK 下载](https://example.com/sdk/): 各语言的 SDK ## 非技术人员 - [用户指南](https://example.com/guide/): 图文并茂的使用教程 - [视频教程](https://example.com/videos/): 逐步操作视频
2. 提供多语言支持
如果您的网站有多种语言版本:
## 文档 - [英文文档](https://example.com/en/docs/): English documentation - [中文文档](https://example.com/zh/docs/): 中文文档 - [日文文档](https://example.com/ja/docs/): 日本語のドキュメント
3. 包含版本信息
对于软件项目,明确指出当前版本:
# MyLibrary v2.5.0 > 一个用于数据处理的 Python 库,最新版本 2.5.0(2024 年 1 月发布)。 ## 文档 - [v2.5 文档](https://example.com/docs/v2.5/): 当前稳定版文档 - [迁移指南](https://example.com/migrate/): 从 v1.x 升级到 v2.x
4. 链接到交互式示例
## 示例 - [在线演示](https://example.com/demo/): 交互式在线演示 - [代码沙盒](https://codesandbox.io/example): 可编辑的代码示例 - [GitHub 示例](https://github.com/example/samples): 完整的示例项目
5. 提供社区和支持资源
## 社区与支持 - [Discord 社区](https://discord.gg/example): 活跃的社区服务器 - [Stack Overflow](https://stackoverflow.com/questions/tagged/example): 技术问题问答 - [GitHub Issues](https://github.com/example/issues): 报告 bug 和功能请求
llms.txt 的局限性
- 尚未成为普遍执行的标准
- 依赖 AI 公司尊重它
- 不保证合规性
- 不能替代良好的网站结构和 SEO
常见错误
1. 链接过多
错误: 列出网站的所有页面
正确: 只链接最重要、最有价值的页面
2. 描述缺失或模糊
错误: - [文档](https://example.com/docs)
正确: - [完整文档](https://example.com/docs/): 包含 API 参考和教程的完整指南
3. 结构混乱
错误: 没有分类,所有链接混在一起
正确: 使用 H2 标题清晰分类
4. 文件过大
错误: 超过 10KB,包含大量细节
正确: 保持简洁,详细信息放在 llms-full.txt 或链接的目标页面
5. 忽略 Optional 章节
错误: 所有内容都同等重要
正确: 将次要内容放入 Optional 章节
检查清单
在发布 llms.txt 之前,请确认:
- 文件位于网站根目录( https://yourdomain.com/llms.txt )
- 只有一个 H1 标题
- 有清晰的引用块描述
- 使用 H2 标题分类链接
- 所有链接都有描述性文字
- 包含 Optional 章节用于次要内容
- 文件大小在 10KB 以下
- 所有链接都是有效的
- 内容与 robots.txt 不冲突
- 优先链接 Markdown 版本(如果可用)
- 定期更新和维护
工具和资源
验证工具
- 使用 Markdown 编辑器预览格式
- 检查链接有效性
- 验证文件大小
相关资源
总结
llms.txt 是一个简单但强大的工具,可以帮助 AI 模型更好地理解和引用您的网站内容。通过遵循本指南,您可以创建一个优化的 llms.txt 文件,提高您的内容在 AI 答案中的可见性和准确性。
记住:
- 保持简洁明了
- 提供高质量的链接
- 定期更新维护
- 与现有的 SEO 策略配合使用
祝您编写出优秀的 llms.txt!
直接拷贝本规则交给 AI 生成即可
每天一个 GEO 小妙招