语言
English English Vietnamese (Tiếng Việt) Vietnamese (Tiếng Việt) Chinese (简体中文) Chinese (简体中文) Portuguese (Brazil) (Português do Brasil) Portuguese (Brazil) (Português do Brasil) Spanish (Español) Spanish (Español) Indonesian (Bahasa Indonesia) Indonesian (Bahasa Indonesia)
Robots.txt 生成器

Robots.txt 生成器

通过可视化编辑器创建和自定义 robots.txt 文件。选择预设模板或为搜索引擎爬虫构建自定义规则。

什么是 Robots.txt 文件?

一个robots.txt文件是一个关键的 SEO 工具,它指示搜索引擎爬虫哪些页面或网站部分可以或不可以访问。它位于您域名的根目录(例如https://example.com/robots.txt),是爬虫在索引您的网站之前检查的首批文件之一。

此工具的功能:通过可视化方式构建您的 robots.txt 文件,无需记忆复杂的语法。选择用户代理、配置允许/禁止规则、添加网站地图,并立即下载您的现成文件。

为什么需要 Robots.txt 文件?

控制爬取

防止机器人访问敏感区域,如管理面板、登录页面或内部 API

节省爬取预算

将爬虫引导到您的重要页面,而不是浪费资源在低价值 URL 上

阻止 AI 爬虫

阻止 GPTBot 和 CCBot 等 AI 机器人使用您的内容进行训练

改进 SEO

帮助搜索引擎专注于您想在搜索结果中排名的页面

如何使用此生成器

使用预设快速开始

点击顶部的预设按钮之一,立即加载常见配置:

标准

阻止 admin、private、tmp 和 API 目录 — 适合大多数网站

允许全部

允许所有爬虫访问您网站上的所有内容

禁止全部

防止所有爬虫访问任何页面 — 在开发期间使用

阻止 AI 机器人

允许搜索引擎但阻止 AI 爬虫(GPTBot、ChatGPT-User、CCBot 等)

电商

阻止购物车、结账、账户和筛选页面以优化爬取预算

空白

空白模板,从头开始构建您的自定义配置

构建自定义规则

1

选择用户代理

从下拉菜单中选择(例如 Googlebot、Bingbot)或输入自定义机器人名称以针对特定爬虫

2

添加规则

将路径设置为允许或禁止。使用路径建议获取常见目录,如/admin//wp-content//api/

3

设置爬取延迟

可选择指定机器人在请求之间应等待的秒数,以减少服务器负载

4

添加网站地图

输入您的网站地图 URL(例如https://example.com/sitemap.xml)以帮助爬虫高效发现您的内容

5

复制或下载

使用复制按钮直接粘贴到您的文件中,或下载现成的 robots.txt 文件以供上传

导入现有文件

点击导入现有文件,粘贴您当前的 robots.txt 内容,然后点击应用。该工具将其解析为可编辑的规则组,以便您可以通过可视化方式进行更改,无需手动编辑语法。

专业提示:导入您现有的文件以快速更新或优化您当前的配置,无需从头开始。

功能

可视化规则构建器

通过直观的无代码界面构建 robots.txt 规则。每个规则组包括用户代理选择器、允许/禁止路径和可选的爬取延迟设置。只需单击一下即可添加或删除组和规则 — 无需语法知识。

传统方法

手动编辑

  • 记忆语法规则
  • 格式错误的风险
  • 耗时的测试
  • 难以可视化结构
使用此工具

可视化界面

  • 点击配置
  • 自动语法验证
  • 实时预览
  • 清晰的规则组织

全面的机器人库

19 个预配置的用户代理中选择,涵盖主要搜索引擎、社交平台和 AI 爬虫:

主要搜索引擎

  • Googlebot — Google 的主要网络爬虫
  • Bingbot — Microsoft Bing 的爬虫
  • Yandex — 俄罗斯领先的搜索引擎
  • Baiduspider — 中国主导的搜索爬虫
  • DuckDuckBot — 隐私聚焦的搜索引擎
  • Slurp — Yahoo 的网络爬虫

社交媒体爬虫

  • facebookexternalhit — Facebook 链接预览爬虫
  • Twitterbot — Twitter 卡片和预览机器人
  • LinkedInBot — LinkedIn 内容爬虫

AI 训练机器人

  • GPTBot — OpenAI 的 ChatGPT 训练网络爬虫
  • ChatGPT-User — ChatGPT 浏览功能机器人
  • Google-Extended — Google 的 AI 训练爬虫
  • CCBot — Common Crawl 数据收集机器人
  • anthropic-ai — Anthropic 的 Claude AI 爬虫
  • Claude-Web — Claude 网络浏览机器人
  • Bytespider — ByteDance 的 AI 训练爬虫

专用爬虫

  • Googlebot-Image — Google 的图像索引机器人
  • Googlebot-News — Google 新闻爬虫
  • 自定义机器人名称 — 输入任何用户代理字符串

智能路径建议

输入路径时,该工具会建议常见目录和模式以加快配置。支持通配符模式以实现高级控制。

常见目录

/admin//wp-admin//api//cart//checkout//private//tmp/

通配符模式

/*.pdf$(阻止 PDF)、/search?*(阻止搜索查询)、/*?sort=*(阻止排序参数)

具有语法高亮的实时预览

当您进行更改时,实时查看您的 robots.txt 输出更新。指令、值和网站地图 URL 采用彩色编码,便于阅读和验证。在下载前立即发现错误或格式问题。

实时验证:预览面板突出显示语法错误并提供即时反馈,确保您的 robots.txt 文件在部署前格式正确。

导入和编辑

粘贴现有的 robots.txt 文件以将其解析为可视化规则组。在用户友好的界面中编辑规则、添加新指令或重新组织现有指令。完成后导出更新的版本 — 非常适合维护和优化现有配置。

常见问题

我应该在哪里放置 robots.txt 文件?

将其上传到您网站的根目录,以便可在https://yourdomain.com/robots.txt访问。搜索引擎在爬取您的网站之前会检查此特定 URL。

重要:文件必须命名为robots.txt(小写)并放在根目录中 — 不在子目录中或使用不同的名称。

Robots.txt 会阻止页面出现在搜索结果中吗?

不完全是。Robots.txt 防止爬虫访问页面,但如果其他页面链接到该 URL,它仍然可能出现在搜索结果中。要完全阻止页面出现在搜索结果中,请改用noindex元标签或 X-Robots-Tag HTTP 标头。

如果您想阻止 URL 出现在 Google 搜索结果中,请使用 noindex。不要为此目的使用 robots.txt,因为它可能仍然出现在搜索结果中而没有描述。

— Google 搜索中心文档

"Disallow: /" 是什么意思?

它告诉指定的机器人不要爬取您网站上的任何页面。谨慎使用 — 它实际上会将您的整个网站隐藏在该爬虫之外。

示例:阻止所有爬取
User-agent: *
Disallow: /

警告:此配置阻止所有搜索引擎爬取您的整个网站。仅在开发期间或私有网站上使用。

什么是爬取延迟?

爬取延迟告诉机器人在请求之间等待指定的秒数。这可以减少来自激进爬虫的服务器负载。

注意:Googlebot 不支持爬取延迟。要控制 Google 的爬取速率,请改用Google Search Console
示例:设置 10 秒延迟
User-agent: Bingbot
Crawl-delay: 10

我如何阻止 AI 机器人抓取我的内容?

使用阻止 AI 机器人预设,它为 GPTBot、ChatGPT-User、Google-Extended、CCBot、anthropic-ai、Claude-Web 和 Bytespider 创建禁止规则,同时仍允许常规搜索引擎爬取您的网站。

示例:阻止 AI 爬虫
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Bytespider
Disallow: /

此配置保护您的内容免被用于 AI 训练,同时保持在搜索引擎中的可见性。

我可以在 robots.txt 路径中使用通配符吗?

可以,大多数现代爬虫支持*(匹配任何序列)和$(匹配 URL 末尾)。这些通配符为复杂规则启用强大的模式匹配。

模式 含义 示例
* 匹配任何字符序列 /search?*阻止所有搜索查询
$ 匹配 URL 末尾 /*.pdf$阻止所有 PDF 文件
*$ 组合模式 /*?sort=*$阻止带有排序参数的 URL
专业提示:使用通配符高效阻止整个 URL 类别,例如所有筛选的产品页面或搜索结果变体。

我的数据安全吗?

100% 私密:此工具完全在您的浏览器中使用客户端 JavaScript 运行。不会向任何服务器发送数据 — 您的 robots.txt 内容保留在您的设备上。

  • 无服务器上传或数据传输
  • 不跟踪或分析您的内容
  • 不存储您的配置
  • 完整的隐私和安全
Sitemap
robots.txt

            
预设模板开始,然后自定义以节省时间
使用阻止 AI 机器人预设防止 AI 爬虫抓取您的内容
添加您的网站地图 URL帮助搜索引擎更快发现您的页面
使用导入现有文件粘贴并编辑您当前的 robots.txt 文件
所有操作都在您的浏览器中运行 — 不会向任何服务器发送数据
想了解更多? 阅读文档 →
1/6
找不到?用AI自定义工具
开始输入以搜索...
搜索中...
未找到结果
请尝试使用不同的关键词搜索