什么是 Robots.txt 文件？

一个robots.txt文件是一个关键的 SEO 工具，它指示搜索引擎爬虫哪些页面或网站部分可以或不可以访问。它位于您域名的根目录（例如https://example.com/robots.txt），是爬虫在索引您的网站之前检查的首批文件之一。

此工具的功能：通过可视化方式构建您的 robots.txt 文件，无需记忆复杂的语法。选择用户代理、配置允许/禁止规则、添加网站地图，并立即下载您的现成文件。

为什么需要 Robots.txt 文件？

控制爬取

防止机器人访问敏感区域，如管理面板、登录页面或内部 API

节省爬取预算

将爬虫引导到您的重要页面，而不是浪费资源在低价值 URL 上

阻止 AI 爬虫

阻止 GPTBot 和 CCBot 等 AI 机器人使用您的内容进行训练

改进 SEO

帮助搜索引擎专注于您想在搜索结果中排名的页面

如何使用此生成器

使用预设快速开始

点击顶部的预设按钮之一，立即加载常见配置：

标准

阻止 admin、private、tmp 和 API 目录 — 适合大多数网站

允许全部

允许所有爬虫访问您网站上的所有内容

禁止全部

防止所有爬虫访问任何页面 — 在开发期间使用

阻止 AI 机器人

允许搜索引擎但阻止 AI 爬虫（GPTBot、ChatGPT-User、CCBot 等）

电商

阻止购物车、结账、账户和筛选页面以优化爬取预算

空白

空白模板，从头开始构建您的自定义配置

构建自定义规则

选择用户代理

从下拉菜单中选择（例如 Googlebot、Bingbot）或输入自定义机器人名称以针对特定爬虫

添加规则

将路径设置为允许或禁止。使用路径建议获取常见目录，如/admin/、/wp-content/或/api/

设置爬取延迟

可选择指定机器人在请求之间应等待的秒数，以减少服务器负载

添加网站地图

输入您的网站地图 URL（例如https://example.com/sitemap.xml）以帮助爬虫高效发现您的内容

复制或下载

使用复制按钮直接粘贴到您的文件中，或下载现成的 robots.txt 文件以供上传

导入现有文件

点击导入现有文件，粘贴您当前的 robots.txt 内容，然后点击应用。该工具将其解析为可编辑的规则组，以便您可以通过可视化方式进行更改，无需手动编辑语法。

专业提示：导入您现有的文件以快速更新或优化您当前的配置，无需从头开始。

功能

可视化规则构建器

通过直观的无代码界面构建 robots.txt 规则。每个规则组包括用户代理选择器、允许/禁止路径和可选的爬取延迟设置。只需单击一下即可添加或删除组和规则 — 无需语法知识。

传统方法

手动编辑

记忆语法规则
格式错误的风险
耗时的测试
难以可视化结构

使用此工具

可视化界面

点击配置
自动语法验证
实时预览
清晰的规则组织

全面的机器人库

从19 个预配置的用户代理中选择，涵盖主要搜索引擎、社交平台和 AI 爬虫：

主要搜索引擎

Googlebot — Google 的主要网络爬虫
Bingbot — Microsoft Bing 的爬虫
Yandex — 俄罗斯领先的搜索引擎
Baiduspider — 中国主导的搜索爬虫
DuckDuckBot — 隐私聚焦的搜索引擎
Slurp — Yahoo 的网络爬虫

社交媒体爬虫

facebookexternalhit — Facebook 链接预览爬虫
Twitterbot — Twitter 卡片和预览机器人
LinkedInBot — LinkedIn 内容爬虫

AI 训练机器人

GPTBot — OpenAI 的 ChatGPT 训练网络爬虫
ChatGPT-User — ChatGPT 浏览功能机器人
Google-Extended — Google 的 AI 训练爬虫
CCBot — Common Crawl 数据收集机器人
anthropic-ai — Anthropic 的 Claude AI 爬虫
Claude-Web — Claude 网络浏览机器人
Bytespider — ByteDance 的 AI 训练爬虫

专用爬虫

Googlebot-Image — Google 的图像索引机器人
Googlebot-News — Google 新闻爬虫
自定义机器人名称 — 输入任何用户代理字符串

智能路径建议

输入路径时，该工具会建议常见目录和模式以加快配置。支持通配符模式以实现高级控制。

常见目录

/admin/、/wp-admin/、/api/、/cart/、/checkout/、/private/、/tmp/

通配符模式

/*.pdf$（阻止 PDF）、/search?*（阻止搜索查询）、/*?sort=*（阻止排序参数）

具有语法高亮的实时预览

当您进行更改时，实时查看您的 robots.txt 输出更新。指令、值和网站地图 URL 采用彩色编码，便于阅读和验证。在下载前立即发现错误或格式问题。

实时验证：预览面板突出显示语法错误并提供即时反馈，确保您的 robots.txt 文件在部署前格式正确。

导入和编辑

粘贴现有的 robots.txt 文件以将其解析为可视化规则组。在用户友好的界面中编辑规则、添加新指令或重新组织现有指令。完成后导出更新的版本 — 非常适合维护和优化现有配置。

常见问题

我应该在哪里放置 robots.txt 文件？

将其上传到您网站的根目录，以便可在https://yourdomain.com/robots.txt访问。搜索引擎在爬取您的网站之前会检查此特定 URL。

重要：文件必须命名为robots.txt（小写）并放在根目录中 — 不在子目录中或使用不同的名称。

Robots.txt 会阻止页面出现在搜索结果中吗？

不完全是。Robots.txt 防止爬虫访问页面，但如果其他页面链接到该 URL，它仍然可能出现在搜索结果中。要完全阻止页面出现在搜索结果中，请改用noindex元标签或 X-Robots-Tag HTTP 标头。

如果您想阻止 URL 出现在 Google 搜索结果中，请使用 noindex。不要为此目的使用 robots.txt，因为它可能仍然出现在搜索结果中而没有描述。
— Google 搜索中心文档

"Disallow: /" 是什么意思？

它告诉指定的机器人不要爬取您网站上的任何页面。谨慎使用 — 它实际上会将您的整个网站隐藏在该爬虫之外。

示例：阻止所有爬取

User-agent: *
Disallow: /

警告：此配置阻止所有搜索引擎爬取您的整个网站。仅在开发期间或私有网站上使用。

什么是爬取延迟？

爬取延迟告诉机器人在请求之间等待指定的秒数。这可以减少来自激进爬虫的服务器负载。

注意：Googlebot 不支持爬取延迟。要控制 Google 的爬取速率，请改用Google Search Console。

示例：设置 10 秒延迟

User-agent: Bingbot
Crawl-delay: 10

我如何阻止 AI 机器人抓取我的内容？

使用阻止 AI 机器人预设，它为 GPTBot、ChatGPT-User、Google-Extended、CCBot、anthropic-ai、Claude-Web 和 Bytespider 创建禁止规则，同时仍允许常规搜索引擎爬取您的网站。

示例：阻止 AI 爬虫

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Bytespider
Disallow: /

此配置保护您的内容免被用于 AI 训练，同时保持在搜索引擎中的可见性。

我可以在 robots.txt 路径中使用通配符吗？

可以，大多数现代爬虫支持*（匹配任何序列）和$（匹配 URL 末尾）。这些通配符为复杂规则启用强大的模式匹配。

模式	含义	示例
`*`	匹配任何字符序列	`/search?*`阻止所有搜索查询
`$`	匹配 URL 末尾	`/*.pdf$`阻止所有 PDF 文件
`*$`	组合模式	`/?sort=$`阻止带有排序参数的 URL

专业提示：使用通配符高效阻止整个 URL 类别，例如所有筛选的产品页面或搜索结果变体。

我的数据安全吗？

100% 私密：此工具完全在您的浏览器中使用客户端 JavaScript 运行。不会向任何服务器发送数据 — 您的 robots.txt 内容保留在您的设备上。

无服务器上传或数据传输
不跟踪或分析您的内容
不存储您的配置
完整的隐私和安全