llms.txt 编写规范指南

1 条回复
34 次浏览

什么是 llms.txt?

llms.txt 是由 Answer.AI 的 Jeremy Howard 提出的一种标准,类似于 robots.txt,但专门为大型语言模型(LLM)设计。它是一个放置在网站根目录的 Markdown 文件,为 LLM 提供结构化指导,说明网站上哪些内容最重要、最可靠、最值得引用。

llms.txt vs robots.txt vs sitemap.xml

特性robots.txtsitemap.xmlllms.txt
用途控制爬虫访问权限搜索引擎页面发现为 LLM 提供精选内容指南
格式纯文本指令XMLMarkdown(人类和 AI 可读)
主要优势阻止不必要的爬虫更好的 SEO 索引更好的 AI 答案和引用

为什么需要 llms.txt?

  • 引导 AI 模型关注最重要的内容
  • 提高正确引用和归属的机会
  • 通过提供权威来源减少幻觉
  • 使内容更易于处理且对 LLM 来说更便宜(token 方面)
  • 为答案引擎优化(AEO)做好准备

重要提示:llms.txt 不是访问控制文件

与 robots.txt 不同,llms.txt 不阻止或限制机器人。它是一个推荐层,而不是权限系统。

  • ❌ 它不能阻止 AI 访问您的内容
  • ❌ 它不定义法律使用权
  • ❌ 爬虫不会强制执行
  • ✅ 它帮助 AI 模型找到高质量、权威的来源
  • ✅ 它改进了内容的理解和引用方式

文件位置

llms.txt 必须放置在域名的根目录:

复制
https://yourdomain.com/llms.txt

就像 robots.txt 一样,它应该是公开可访问的。

基本结构

llms.txt 使用 Markdown 格式,遵循特定结构,既便于人类阅读,也易于 AI 模型解析。文件由三个主要部分组成:

  1. H1 标题:网站或项目名称
  2. 引用块:简短描述(电梯演讲)
  3. H2 章节:包含指向重要页面的命名链接

最小示例

复制
# 项目名称

> 项目的简短描述,说明它提供什么服务或功能。

## 文档

- [完整文档](https://example.com/docs/): 所有功能的完整文档

- [快速开始](https://example.com/getting-started/): 快速设置指南

## 博客

- [技术博客](https://example.com/blog/): 教程、更新和技术文章

## 可选

- [更新日志](https://example.com/changelog/): 版本历史和发布说明

关键结构规则

1. H1 标题(必需,仅一个)

  • 网站或产品的名称
  • 必须是第一个元素
  • 只能有一个 H1 标题
复制
# 我的产品名称

2. 引用块(必需)

  • 简要总结网站提供的服务
  • 使用 > 符号创建引用块
  • 保持简洁明了(1-2 句话)
复制
> 我们为全球企业提供 WordPress 插件和基于 Laravel 的 Web 应用程序开发服务。

3. H2 章节(分类链接)

  • 使用 H2 标题创建命名的链接类别
  • 常见类别:Docs(文档)、Products(产品)、Services(服务)、Blog(博客)、API 等
  • 每个类别应该有明确的用途
复制
## 文档

## 产品

## 服务

## 博客

4. 链接格式

  • 使用命名链接,格式:[链接文本](URL): 简短描述
  • 链接文本应该清晰描述目标页面
  • 冒号后添加简短描述,说明页面内容
  • 每个链接占一行
复制
- [产品文档](https://example.com/docs/): 所有产品的完整指南和 API 参考

- [入门指南](https://example.com/start/): 5 分钟内完成设置

5. "Optional"(可选)章节

  • 这是一个规范定义的信号
  • 上下文窗口有限的 LLM 建议跳过此部分内容
  • 用于放置低优先级内容
复制
## Optional

- [更新日志](https://example.com/changelog/): 产品更新历史

- [联系我们](https://example.com/contact/): 与团队取得联系

逐步编写指南

步骤 1:添加网站名称和描述

以 H1 标题和引用块开始,清楚地描述您的网站是关于什么的。这是 AI 首先阅读的内容。

复制
# 我的产品

> 我们构建 WordPress 插件和基于 Laravel 的 Web 应用程序,服务于全球企业。

步骤 2:添加最重要的页面

在 H2 章节下组织关键页面。优先考虑文档、产品页面和您希望 AI 模型正确引用或参考的任何内容。

复制
## 产品

- [产品 A](https://example.com/product-a/): 产品 A 的功能描述

- [产品 B](https://example.com/product-b/): 产品 B 的功能描述

## 文档

- [完整文档](https://example.com/docs/): 所有产品的完整指南

## 服务

- [定制开发](https://example.com/services/): 定制 Web 应用开发服务

步骤 3:添加可选章节用于低优先级内容

Optional 标题是一个规范定义的信号。如果上下文窗口有限,LLM 被建议跳过此部分的内容。

复制
## Optional

- [更新日志](https://example.com/changelog/): 产品更新历史

- [合作伙伴](https://example.com/partners/): 合作伙伴计划详情

步骤 4:链接到 Markdown 版本的关键页面(如果可用)

如果您有文档或博客文章的 .md 版本,链接到这些版本而不是或与 HTML 版本一起链接。Markdown 对 LLM 来说在 token 处理上要高效得多。

复制
## 文档

- [入门指南 (Markdown)](https://example.com/docs/getting-started.md): Markdown 格式的设置指南

步骤 5:保持在 10KB 以下

规范建议保持 llms.txt 简洁。如果您有大量内容,请在此处总结并链接出去。目标是创建一个快速、权威的地图,而不是完整的内容转储。对于后者,使用 llms-full.txt。

什么是 llms-full.txt?

虽然 llms.txt 应该保持简洁,但 llms-full.txt 可以包含更详细、结构化版本的内容。

  • llms.txt → 摘要 + 关键链接(快速阅读)
  • llms-full.txt → 扩展内容(深度上下文)

这允许 AI 系统根据其上下文限制选择在快速概述和深度爬取之间。

完整实战示例

示例 1:WordPress 插件业务

复制
# Codeboxr

> Codeboxr 为全球企业构建 WordPress 插件和定制 Laravel Web 应用程序。我们的插件涵盖 HRM、请愿、预订、 job boards、电子邮件 SMTP 等。

## 产品

- [CBX Petition for WordPress](https://codeboxr.com/product/cbx-petition-for-wordpress/): 创建和管理在线请愿和签名活动

- [CBX HRM](https://codeboxr.com/product/cbxhrm/): WordPress 的全功能人力资源管理插件

- [CBX Booking](https://codeboxr.com/product/cbx-booking/): WordPress 的预约和预订管理

## 服务

- [Laravel 开发](https://codeboxr.com/laravel-development/): 可扩展的定制 Web 应用程序开发

- [WordPress 插件开发](https://codeboxr.com/wordpress-plugin-development/): 任何用例的定制插件开发

## 文档

- [文档首页](https://codeboxr.com/docs/): 所有产品的指南、参考和教程

## 博客

- [博客](https://codeboxr.com/blog/): 技术文章、插件更新和开发见解

## Optional

- [更新日志](https://codeboxr.com/changelog/): 版本历史和发布说明

- [联系我们](https://codeboxr.com/contact-us/): 与 Codeboxr 团队取得联系

示例 2:最小化单一产品网站

复制
# MyPlugin

> 一个轻量级 WordPress 插件,用于管理客户评论和推荐。

## 文档

- [完整文档](https://myplugin.com/docs/): 完整的设置和配置指南

- [常见问题](https://myplugin.com/faq/): 常见问题的答案

## Optional

- [更新日志](https://myplugin.com/changelog/): 更新历史

示例 3:带有 API 文档的 SaaS 产品

复制
# MySaaS Platform

> 面向远程开发团队的项目管理 SaaS 工具。

## 快速开始

- [快速启动指南](https://mysaas.com/docs/quickstart/): 5 分钟内完成设置

- [API 参考](https://mysaas.com/api/): 完整的 REST API 文档

## 博客

- [工程博客](https://mysaas.com/blog/engineering/): 深入探讨我们如何构建 MySaaS

## Optional

- [状态页面](https://status.mysaas.com/): 实时系统运行时间和事件历史

示例 4:代理机构或服务业务

复制
# Acme Web Agency

> 我们为美国和英国的中小企业设计和开发高性能网站和 Web 应用程序。

## 服务

- [网页设计](https://acmeagency.com/web-design/): 定制网站设计服务

- [Laravel 开发](https://acmeagency.com/laravel/): 后端 API 和应用程序开发

## 作品集

- [案例研究](https://acmeagency.com/case-studies/): 真实客户的真实成果

## Optional

- [关于我们](https://acmeagency.com/about/): 团队背景和公司历史

好坏示例对比

❌ 坏示例(太通用)

复制
# 我的网站

> 欢迎来到我的网站。

## 页面

- [首页](https://example.com)

- [博客](https://example.com/blog)

问题:

  • 描述过于模糊
  • 没有提供有价值的信息
  • 链接没有描述性文字
  • 没有分类组织

✅ 好示例(LLM 优化)

复制
# MyPlugin

> 一个 WordPress 插件,用于管理带有结构化 schema 支持的已验证客户评论。

## 文档

- [入门指南](https://example.com/docs/start): 设置和安装指南

- [Schema 集成](https://example.com/docs/schema): 通过结构化数据改进 SEO

## 博客

- [评论 Schema 工作原理](https://example.com/blog/review-schema): 深入技术解释

优点:

  • 清晰的上下文和意图
  • 高价值入口点
  • 描述性的链接文本
  • 有组织的分类

最佳实践

1. 保持简洁易读

  • 使用清晰、简洁的语言
  • 避免冗长的描述
  • 每个链接的描述控制在 1-2 句话

2. 定期更新

  • 随着 AI 政策的演变而更新
  • 添加新功能时更新链接
  • 移除过时或无效的链接

3. 与 robots.txt 结合使用

  • llms.txt 提供内容指导
  • robots.txt 控制爬虫访问
  • 两者配合实现完整控制

4. 明确定义许可条款

  • 如果需要,在文件中提及内容使用许可
  • 链接到详细的许可协议页面

5. 避免规则矛盾

  • 确保 llms.txt 与 robots.txt 不冲突
  • 保持一致的内容策略

6. 优先链接 Markdown 格式

  • Markdown 对 LLM 更高效(token 更少)
  • 如果同时有 HTML 和 Markdown 版本,优先链接 Markdown
  • 或者同时提供两个版本的链接

7. 使用描述性链接文本

  • 避免使用"点击这里"、"更多信息"等模糊文本
  • 使用能准确描述目标页面内容的文本
  • 例如:"API 参考文档"而不是"文档"

8. 合理组织内容层次

  • 最重要的内容放在前面
  • 按功能或主题分类
  • 使用 Optional 章节存放次要内容

高级技巧

1. 为不同受众创建多个入口点

复制
## 开发者资源

- [API 文档](https://example.com/api/): 完整的 API 参考

- [SDK 下载](https://example.com/sdk/): 各语言的 SDK

## 非技术人员

- [用户指南](https://example.com/guide/): 图文并茂的使用教程

- [视频教程](https://example.com/videos/): 逐步操作视频

2. 提供多语言支持

如果您的网站有多种语言版本:

复制
## 文档

- [英文文档](https://example.com/en/docs/): English documentation

- [中文文档](https://example.com/zh/docs/): 中文文档

- [日文文档](https://example.com/ja/docs/): 日本語のドキュメント

3. 包含版本信息

对于软件项目,明确指出当前版本:

复制
# MyLibrary v2.5.0

> 一个用于数据处理的 Python 库,最新版本 2.5.0(2024 年 1 月发布)。

## 文档

- [v2.5 文档](https://example.com/docs/v2.5/): 当前稳定版文档

- [迁移指南](https://example.com/migrate/): 从 v1.x 升级到 v2.x

4. 链接到交互式示例

复制
## 示例

- [在线演示](https://example.com/demo/): 交互式在线演示

- [代码沙盒](https://codesandbox.io/example): 可编辑的代码示例

- [GitHub 示例](https://github.com/example/samples): 完整的示例项目

5. 提供社区和支持资源

复制
## 社区与支持

- [Discord 社区](https://discord.gg/example): 活跃的社区服务器

- [Stack Overflow](https://stackoverflow.com/questions/tagged/example): 技术问题问答

- [GitHub Issues](https://github.com/example/issues): 报告 bug 和功能请求

llms.txt 的局限性

  • 尚未成为普遍执行的标准
  • 依赖 AI 公司尊重它
  • 不保证合规性
  • 不能替代良好的网站结构和 SEO

常见错误

1. 链接过多

错误: 列出网站的所有页面

正确: 只链接最重要、最有价值的页面

2. 描述缺失或模糊

错误: - [文档](https://example.com/docs)

正确: - [完整文档](https://example.com/docs/): 包含 API 参考和教程的完整指南

3. 结构混乱

错误: 没有分类,所有链接混在一起

正确: 使用 H2 标题清晰分类

4. 文件过大

错误: 超过 10KB,包含大量细节

正确: 保持简洁,详细信息放在 llms-full.txt 或链接的目标页面

5. 忽略 Optional 章节

错误: 所有内容都同等重要

正确: 将次要内容放入 Optional 章节

检查清单

在发布 llms.txt 之前,请确认:

  • 文件位于网站根目录( https://yourdomain.com/llms.txt
  • 只有一个 H1 标题
  • 有清晰的引用块描述
  • 使用 H2 标题分类链接
  • 所有链接都有描述性文字
  • 包含 Optional 章节用于次要内容
  • 文件大小在 10KB 以下
  • 所有链接都是有效的
  • 内容与 robots.txt 不冲突
  • 优先链接 Markdown 版本(如果可用)
  • 定期更新和维护

工具和资源

验证工具

  • 使用 Markdown 编辑器预览格式
  • 检查链接有效性
  • 验证文件大小

相关资源

总结

llms.txt 是一个简单但强大的工具,可以帮助 AI 模型更好地理解和引用您的网站内容。通过遵循本指南,您可以创建一个优化的 llms.txt 文件,提高您的内容在 AI 答案中的可见性和准确性。

记住:

  • 保持简洁明了
  • 提供高质量的链接
  • 定期更新维护
  • 与现有的 SEO 策略配合使用

祝您编写出优秀的 llms.txt!

直接拷贝本规则交给 AI 生成即可

发表一个评论

R保持