什么是 Robots.txt 文件?
一个robots.txt文件是一个关键的 SEO 工具,它指示搜索引擎爬虫哪些页面或网站部分可以或不可以访问。它位于您域名的根目录(例如https://example.com/robots.txt),是爬虫在索引您的网站之前检查的首批文件之一。
为什么需要 Robots.txt 文件?
控制爬取
防止机器人访问敏感区域,如管理面板、登录页面或内部 API
节省爬取预算
将爬虫引导到您的重要页面,而不是浪费资源在低价值 URL 上
阻止 AI 爬虫
阻止 GPTBot 和 CCBot 等 AI 机器人使用您的内容进行训练
改进 SEO
帮助搜索引擎专注于您想在搜索结果中排名的页面
如何使用此生成器
使用预设快速开始
点击顶部的预设按钮之一,立即加载常见配置:
标准
允许全部
禁止全部
阻止 AI 机器人
电商
空白
构建自定义规则
选择用户代理
从下拉菜单中选择(例如 Googlebot、Bingbot)或输入自定义机器人名称以针对特定爬虫
添加规则
将路径设置为允许或禁止。使用路径建议获取常见目录,如/admin/、/wp-content/或/api/
设置爬取延迟
可选择指定机器人在请求之间应等待的秒数,以减少服务器负载
添加网站地图
输入您的网站地图 URL(例如https://example.com/sitemap.xml)以帮助爬虫高效发现您的内容
复制或下载
使用复制按钮直接粘贴到您的文件中,或下载现成的 robots.txt 文件以供上传
导入现有文件
点击导入现有文件,粘贴您当前的 robots.txt 内容,然后点击应用。该工具将其解析为可编辑的规则组,以便您可以通过可视化方式进行更改,无需手动编辑语法。
功能
可视化规则构建器
通过直观的无代码界面构建 robots.txt 规则。每个规则组包括用户代理选择器、允许/禁止路径和可选的爬取延迟设置。只需单击一下即可添加或删除组和规则 — 无需语法知识。
手动编辑
- 记忆语法规则
- 格式错误的风险
- 耗时的测试
- 难以可视化结构
可视化界面
- 点击配置
- 自动语法验证
- 实时预览
- 清晰的规则组织
全面的机器人库
从19 个预配置的用户代理中选择,涵盖主要搜索引擎、社交平台和 AI 爬虫:
主要搜索引擎
- Googlebot — Google 的主要网络爬虫
- Bingbot — Microsoft Bing 的爬虫
- Yandex — 俄罗斯领先的搜索引擎
- Baiduspider — 中国主导的搜索爬虫
- DuckDuckBot — 隐私聚焦的搜索引擎
- Slurp — Yahoo 的网络爬虫
社交媒体爬虫
- facebookexternalhit — Facebook 链接预览爬虫
- Twitterbot — Twitter 卡片和预览机器人
- LinkedInBot — LinkedIn 内容爬虫
AI 训练机器人
- GPTBot — OpenAI 的 ChatGPT 训练网络爬虫
- ChatGPT-User — ChatGPT 浏览功能机器人
- Google-Extended — Google 的 AI 训练爬虫
- CCBot — Common Crawl 数据收集机器人
- anthropic-ai — Anthropic 的 Claude AI 爬虫
- Claude-Web — Claude 网络浏览机器人
- Bytespider — ByteDance 的 AI 训练爬虫
专用爬虫
- Googlebot-Image — Google 的图像索引机器人
- Googlebot-News — Google 新闻爬虫
- 自定义机器人名称 — 输入任何用户代理字符串
智能路径建议
输入路径时,该工具会建议常见目录和模式以加快配置。支持通配符模式以实现高级控制。
常见目录
/admin/、/wp-admin/、/api/、/cart/、/checkout/、/private/、/tmp/通配符模式
/*.pdf$(阻止 PDF)、/search?*(阻止搜索查询)、/*?sort=*(阻止排序参数)具有语法高亮的实时预览
当您进行更改时,实时查看您的 robots.txt 输出更新。指令、值和网站地图 URL 采用彩色编码,便于阅读和验证。在下载前立即发现错误或格式问题。
导入和编辑
粘贴现有的 robots.txt 文件以将其解析为可视化规则组。在用户友好的界面中编辑规则、添加新指令或重新组织现有指令。完成后导出更新的版本 — 非常适合维护和优化现有配置。
常见问题
我应该在哪里放置 robots.txt 文件?
将其上传到您网站的根目录,以便可在https://yourdomain.com/robots.txt访问。搜索引擎在爬取您的网站之前会检查此特定 URL。
robots.txt(小写)并放在根目录中 — 不在子目录中或使用不同的名称。Robots.txt 会阻止页面出现在搜索结果中吗?
不完全是。Robots.txt 防止爬虫访问页面,但如果其他页面链接到该 URL,它仍然可能出现在搜索结果中。要完全阻止页面出现在搜索结果中,请改用noindex元标签或 X-Robots-Tag HTTP 标头。
如果您想阻止 URL 出现在 Google 搜索结果中,请使用 noindex。不要为此目的使用 robots.txt,因为它可能仍然出现在搜索结果中而没有描述。
— Google 搜索中心文档
"Disallow: /" 是什么意思?
它告诉指定的机器人不要爬取您网站上的任何页面。谨慎使用 — 它实际上会将您的整个网站隐藏在该爬虫之外。
User-agent: *
Disallow: /
警告:此配置阻止所有搜索引擎爬取您的整个网站。仅在开发期间或私有网站上使用。
什么是爬取延迟?
爬取延迟告诉机器人在请求之间等待指定的秒数。这可以减少来自激进爬虫的服务器负载。
User-agent: Bingbot
Crawl-delay: 10
我如何阻止 AI 机器人抓取我的内容?
使用阻止 AI 机器人预设,它为 GPTBot、ChatGPT-User、Google-Extended、CCBot、anthropic-ai、Claude-Web 和 Bytespider 创建禁止规则,同时仍允许常规搜索引擎爬取您的网站。
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Bytespider
Disallow: /
此配置保护您的内容免被用于 AI 训练,同时保持在搜索引擎中的可见性。
我可以在 robots.txt 路径中使用通配符吗?
可以,大多数现代爬虫支持*(匹配任何序列)和$(匹配 URL 末尾)。这些通配符为复杂规则启用强大的模式匹配。
| 模式 | 含义 | 示例 |
|---|---|---|
* |
匹配任何字符序列 | /search?*阻止所有搜索查询 |
$ |
匹配 URL 末尾 | /*.pdf$阻止所有 PDF 文件 |
*$ |
组合模式 | /*?sort=*$阻止带有排序参数的 URL |
我的数据安全吗?
100% 私密:此工具完全在您的浏览器中使用客户端 JavaScript 运行。不会向任何服务器发送数据 — 您的 robots.txt 内容保留在您的设备上。
- 无服务器上传或数据传输
- 不跟踪或分析您的内容
- 不存储您的配置
- 完整的隐私和安全
还没有评论,快来发表第一条!