O que é um Arquivo Robots.txt?
Um arquivo robots.txt é uma ferramenta crítica de SEO que instrui os rastreadores de mecanismos de busca sobre quais páginas ou seções do seu site eles podem ou não acessar. Localizado na raiz do seu domínio (por exemplo, https://example.com/robots.txt), é um dos primeiros arquivos que os rastreadores verificam antes de indexar seu site.
Por Que Você Precisa de um Arquivo Robots.txt?
Controlar Rastreamento
Impeça bots de acessar áreas sensíveis como painéis de administração, páginas de login ou APIs internas
Economizar Orçamento de Rastreamento
Direcione rastreadores para suas páginas importantes em vez de desperdiçar recursos em URLs de baixo valor
Bloquear Scrapers de IA
Impeça bots de IA como GPTBot e CCBot de usar seu conteúdo para dados de treinamento
Melhorar SEO
Ajude mecanismos de busca a focar nas páginas que você deseja classificar nos resultados de busca
- 1. O que é um Arquivo Robots.txt?
- 2. Como Usar Este Gerador
- 3. Recursos
- 4. Perguntas Frequentes
- 4.1. Onde coloco o arquivo robots.txt?
- 4.2. O robots.txt impede que páginas apareçam nos resultados de busca?
- 4.3. O que significa "Disallow: /"?
- 4.4. O que é Crawl-delay?
- 4.5. Como bloqueio bots de IA de fazer scraping do meu conteúdo?
- 4.6. Posso usar wildcards em caminhos robots.txt?
- 4.7. Meus dados estão seguros?
Como Usar Este Gerador
Início Rápido com Modelos Predefinidos
Clique em um dos botões de modelo predefinido no topo para carregar uma configuração comum instantaneamente:
Padrão
Permitir Tudo
Bloquear Tudo
Bloquear Bots de IA
E-commerce
Em Branco
Construindo Regras Personalizadas
Escolha um User-Agent
Selecione no menu suspenso (por exemplo, Googlebot, Bingbot) ou digite um nome de bot personalizado para direcionar rastreadores específicos
Adicione Regras
Defina caminhos como Allow ou Disallow. Use as sugestões de caminho para diretórios comuns como /admin/, /wp-content/, ou /api/
Defina Crawl-Delay
Opcionalmente especifique quantos segundos um bot deve esperar entre requisições para reduzir a carga do servidor
Adicione Sitemaps
Digite suas URLs de sitemap (por exemplo, https://example.com/sitemap.xml) para ajudar rastreadores a descobrir seu conteúdo eficientemente
Copie ou Baixe
Use o botão Copiar para colar diretamente no seu arquivo, ou baixe o arquivo robots.txt pronto para fazer upload
Importar um Arquivo Existente
Clique em Importar Existente, cole seu conteúdo robots.txt atual e clique em Aplicar. A ferramenta analisará em grupos de regras editáveis para que você possa fazer alterações visualmente sem edição manual de sintaxe.
Recursos
Construtor Visual de Regras
Construa regras robots.txt através de uma interface intuitiva e sem código. Cada grupo de regras inclui um seletor de user-agent, caminhos allow/disallow e uma configuração opcional de crawl-delay. Adicione ou remova grupos e regras com um único clique — nenhum conhecimento de sintaxe necessário.
Edição Manual
- Memorizar regras de sintaxe
- Risco de erros de formatação
- Testes demorados
- Difícil visualizar a estrutura
Interface Visual
- Configuração com cliques
- Validação automática de sintaxe
- Visualização em tempo real
- Organização clara de regras
Biblioteca Abrangente de Bots
Escolha entre 19 user-agents pré-configurados cobrindo os principais mecanismos de busca, plataformas sociais e rastreadores de IA:
Principais Mecanismos de Busca
- Googlebot — Rastreador web principal do Google
- Bingbot — Rastreador do Microsoft Bing
- Yandex — Principal mecanismo de busca da Rússia
- Baiduspider — Rastreador de busca dominante da China
- DuckDuckBot — Mecanismo de busca focado em privacidade
- Slurp — Rastreador web do Yahoo
Rastreadores de Mídia Social
- facebookexternalhit — Rastreador de visualização de links do Facebook
- Twitterbot — Bot de cartão e visualização do Twitter
- LinkedInBot — Rastreador de conteúdo do LinkedIn
Bots de Treinamento de IA
- GPTBot — Rastreador web da OpenAI para treinamento do ChatGPT
- ChatGPT-User — Bot de recurso de navegação do ChatGPT
- Google-Extended — Rastreador de treinamento de IA do Google
- CCBot — Bot de coleta de dados do Common Crawl
- anthropic-ai — Rastreador de IA Claude da Anthropic
- Claude-Web — Bot de navegação web do Claude
- Bytespider — Rastreador de treinamento de IA da ByteDance
Rastreadores Especializados
- Googlebot-Image — Bot de indexação de imagens do Google
- Googlebot-News — Rastreador do Google News
- Nome de bot personalizado — Digite qualquer string de user-agent
Sugestões Inteligentes de Caminho
Ao digitar um caminho, a ferramenta sugere diretórios e padrões comuns para acelerar a configuração. Suporta padrões de wildcard para controle avançado.
Diretórios Comuns
/admin/, /wp-admin/, /api/, /cart/, /checkout/, /private/, /tmp/Padrões de Wildcard
/*.pdf$ (bloquear PDFs), /search?* (bloquear consultas de busca), /*?sort=* (bloquear parâmetros de classificação)Visualização ao Vivo com Destaque de Sintaxe
Veja sua saída robots.txt atualizar em tempo real conforme você faz alterações. Diretivas, valores e URLs de sitemap são codificados por cores para leitura fácil e validação. Identifique erros ou problemas de formatação instantaneamente antes de baixar.
Importar e Editar
Cole um arquivo robots.txt existente para analisá-lo em grupos de regras visuais. Edite as regras na interface amigável, adicione novas diretivas ou reorganize as existentes. Exporte a versão atualizada quando terminar — perfeito para manter e otimizar configurações existentes.
Perguntas Frequentes
Onde coloco o arquivo robots.txt?
Faça upload para o diretório raiz do seu site para que seja acessível em https://yourdomain.com/robots.txt. Mecanismos de busca verificam essa URL específica antes de rastrear seu site.
robots.txt (minúsculas) e colocado no diretório raiz — não em um subdiretório ou com um nome diferente.O robots.txt impede que páginas apareçam nos resultados de busca?
Não exatamente. Robots.txt impede que rastreadores acessem uma página, mas a URL ainda pode aparecer nos resultados de busca se outras páginas vincularem a ela. Para bloquear completamente uma página dos resultados de busca, use uma meta tag noindex ou cabeçalho HTTP X-Robots-Tag.
Se você deseja bloquear uma URL dos resultados do Google Search, use noindex. Não use robots.txt para esse propósito, pois ela ainda pode aparecer nos resultados de busca sem uma descrição.
— Documentação do Google Search Central
O que significa "Disallow: /"?
Diz ao bot especificado para não rastrear nenhuma página do seu site. Use com cuidado — efetivamente oculta seu site inteiro daquele rastreador.
User-agent: *
Disallow: /
Aviso: Esta configuração bloqueia todos os mecanismos de busca de rastrear seu site inteiro. Use apenas durante o desenvolvimento ou para sites privados.
O que é Crawl-delay?
Crawl-delay diz a um bot para esperar um número especificado de segundos entre requisições. Isso pode reduzir a carga do servidor de rastreadores agressivos.
User-agent: Bingbot
Crawl-delay: 10
Como bloqueio bots de IA de fazer scraping do meu conteúdo?
Use a predefinição Bloquear Bots de IA, que cria regras Disallow para GPTBot, ChatGPT-User, Google-Extended, CCBot, anthropic-ai, Claude-Web e Bytespider enquanto ainda permite que mecanismos de busca regulares rastreiem seu site.
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Bytespider
Disallow: /
Esta configuração protege seu conteúdo de ser usado para treinamento de IA enquanto mantém a visibilidade nos mecanismos de busca.
Posso usar wildcards em caminhos robots.txt?
Sim, a maioria dos rastreadores modernos suporta * (corresponde a qualquer sequência) e $ (corresponde ao final da URL). Esses wildcards permitem correspondência de padrão poderosa para regras complexas.
| Padrão | Significado | Exemplo |
|---|---|---|
* |
Corresponde a qualquer sequência de caracteres | /search?* bloqueia todas as consultas de busca |
$ |
Corresponde ao final da URL | /*.pdf$ bloqueia todos os arquivos PDF |
*$ |
Padrão combinado | /*?sort=*$ bloqueia URLs com parâmetros de classificação |
Meus dados estão seguros?
100% Privado: Esta ferramenta funciona inteiramente no seu navegador usando JavaScript do lado do cliente. Nenhum dado é enviado para qualquer servidor — seu conteúdo robots.txt permanece no seu dispositivo.
- Sem uploads de servidor ou transmissão de dados
- Sem rastreamento ou análise do seu conteúdo
- Sem armazenamento de sua configuração
- Privacidade e segurança completas
Ainda não há comentários. Seja o primeiro a comentar!