¿Qué es un archivo Robots.txt?
Un archivo robots.txt es una herramienta SEO crítica que instruye a los rastreadores de motores de búsqueda qué páginas o secciones de tu sitio web pueden o no acceder. Ubicado en la raíz de tu dominio (por ejemplo, https://example.com/robots.txt), es uno de los primeros archivos que los rastreadores verifican antes de indexar tu sitio.
¿Por qué necesitas un archivo Robots.txt?
Controlar el Rastreo
Evita que los bots accedan a áreas sensibles como paneles de administración, páginas de inicio de sesión o APIs internas
Ahorrar Presupuesto de Rastreo
Dirige los rastreadores a tus páginas importantes en lugar de desperdiciar recursos en URLs de bajo valor
Bloquear Scrapers de IA
Detén bots de IA como GPTBot y CCBot de usar tu contenido para entrenar datos
Mejorar SEO
Ayuda a los motores de búsqueda a enfocarse en las páginas que deseas clasificar en los resultados de búsqueda
- 1. ¿Qué es un archivo Robots.txt?
- 2. Cómo usar este generador
- 3. Características
- 4. Preguntas frecuentes
- 4.1. ¿Dónde coloco el archivo robots.txt?
- 4.2. ¿Bloquea robots.txt las páginas de aparecer en los resultados de búsqueda?
- 4.3. ¿Qué significa "Disallow: /"?
- 4.4. ¿Qué es Crawl-delay?
- 4.5. ¿Cómo bloqueo bots de IA de extraer mi contenido?
- 4.6. ¿Puedo usar comodines en rutas de robots.txt?
- 4.7. ¿Están mis datos seguros?
Cómo usar este generador
Inicio rápido con plantillas
Haz clic en uno de los botones de plantilla en la parte superior para cargar una configuración común al instante:
Estándar
Permitir Todo
Bloquear Todo
Bloquear Bots de IA
Comercio Electrónico
En Blanco
Construir reglas personalizadas
Elige un User-Agent
Selecciona del menú desplegable (por ejemplo, Googlebot, Bingbot) o ingresa un nombre de bot personalizado para dirigirse a rastreadores específicos
Añade reglas
Establece rutas como Allow o Disallow. Usa las sugerencias de rutas para directorios comunes como /admin/, /wp-content/, o /api/
Establece Crawl-Delay
Opcionalmente especifica cuántos segundos debe esperar un bot entre solicitudes para reducir la carga del servidor
Añade Sitemaps
Ingresa tus URLs de sitemap (por ejemplo, https://example.com/sitemap.xml) para ayudar a los rastreadores a descubrir tu contenido eficientemente
Copiar o descargar
Usa el botón Copiar para pegar directamente en tu archivo, o descarga el archivo robots.txt listo para cargar
Importar un archivo existente
Haz clic en Importar Existente, pega tu contenido actual de robots.txt y haz clic en Aplicar. La herramienta lo analizará en grupos de reglas editables para que puedas hacer cambios visualmente sin editar manualmente la sintaxis.
Características
Constructor visual de reglas
Construye reglas de robots.txt a través de una interfaz intuitiva sin código. Cada grupo de reglas incluye un selector de user-agent, rutas allow/disallow y una configuración opcional de crawl-delay. Añade o elimina grupos y reglas con un solo clic — no se requiere conocimiento de sintaxis.
Edición manual
- Memorizar reglas de sintaxis
- Riesgo de errores de formato
- Pruebas que consumen tiempo
- Difícil de visualizar la estructura
Interfaz visual
- Configuración de punto y clic
- Validación automática de sintaxis
- Vista previa en tiempo real
- Organización clara de reglas
Biblioteca completa de bots
Elige entre 19 user-agents preconfigurados que cubren motores de búsqueda principales, plataformas sociales y rastreadores de IA:
Motores de búsqueda principales
- Googlebot — Rastreador web principal de Google
- Bingbot — Rastreador de Microsoft Bing
- Yandex — Motor de búsqueda líder de Rusia
- Baiduspider — Rastreador de búsqueda dominante de China
- DuckDuckBot — Motor de búsqueda enfocado en privacidad
- Slurp — Rastreador web de Yahoo
Rastreadores de redes sociales
- facebookexternalhit — Rastreador de vista previa de enlaces de Facebook
- Twitterbot — Bot de tarjetas de Twitter y vista previa
- LinkedInBot — Rastreador de contenido de LinkedIn
Bots de entrenamiento de IA
- GPTBot — Rastreador web de OpenAI para entrenamiento de ChatGPT
- ChatGPT-User — Bot de función de navegación de ChatGPT
- Google-Extended — Rastreador de entrenamiento de IA de Google
- CCBot — Bot de recopilación de datos de Common Crawl
- anthropic-ai — Rastreador de IA Claude de Anthropic
- Claude-Web — Bot de navegación web de Claude
- Bytespider — Rastreador de entrenamiento de IA de ByteDance
Rastreadores especializados
- Googlebot-Image — Bot de indexación de imágenes de Google
- Googlebot-News — Rastreador de Google News
- Nombre de bot personalizado — Ingresa cualquier cadena de user-agent
Sugerencias inteligentes de rutas
Al escribir una ruta, la herramienta sugiere directorios y patrones comunes para acelerar la configuración. Soporta patrones de comodines para control avanzado.
Directorios comunes
/admin/, /wp-admin/, /api/, /cart/, /checkout/, /private/, /tmp/Patrones de comodines
/*.pdf$ (bloquear PDFs), /search?* (bloquear consultas de búsqueda), /*?sort=* (bloquear parámetros de ordenamiento)Vista previa en vivo con resaltado de sintaxis
Ve tu salida de robots.txt actualizarse en tiempo real mientras haces cambios. Las directivas, valores y URLs de sitemap están codificados por colores para una lectura fácil y validación. Detecta errores o problemas de formato al instante antes de descargar.
Importar y editar
Pega un archivo robots.txt existente para analizarlo en grupos de reglas visuales. Edita las reglas en la interfaz amigable, añade nuevas directivas u reorganiza las existentes. Exporta la versión actualizada cuando termines — perfecto para mantener y optimizar configuraciones existentes.
Preguntas frecuentes
¿Dónde coloco el archivo robots.txt?
Cárgalo en el directorio raíz de tu sitio web para que sea accesible en https://yourdomain.com/robots.txt. Los motores de búsqueda verifican esta URL específica antes de rastrear tu sitio.
robots.txt (minúsculas) y colocarse en el directorio raíz — no en un subdirectorio ni con un nombre diferente.¿Bloquea robots.txt las páginas de aparecer en los resultados de búsqueda?
No exactamente. Robots.txt evita que los rastreadores accedan a una página, pero la URL aún puede aparecer en los resultados de búsqueda si otras páginas la enlazan. Para bloquear completamente una página de los resultados de búsqueda, usa una etiqueta meta noindex o un encabezado HTTP X-Robots-Tag en su lugar.
Si deseas bloquear una URL de los resultados de búsqueda de Google, usa noindex. No uses robots.txt para este propósito, ya que aún puede aparecer en los resultados de búsqueda sin descripción.
— Documentación de Google Search Central
¿Qué significa "Disallow: /"?
Le dice al bot especificado que no rastree ninguna página en tu sitio. Úsalo con cuidado — efectivamente oculta tu sitio completo de ese rastreador.
User-agent: *
Disallow: /
Advertencia: Esta configuración bloquea todos los motores de búsqueda de rastrear tu sitio web completo. Úsalo solo durante el desarrollo o para sitios privados.
¿Qué es Crawl-delay?
Crawl-delay le dice a un bot que espere un número especificado de segundos entre solicitudes. Esto puede reducir la carga del servidor de rastreadores agresivos.
User-agent: Bingbot
Crawl-delay: 10
¿Cómo bloqueo bots de IA de extraer mi contenido?
Usa la plantilla Bloquear Bots de IA, que crea reglas Disallow para GPTBot, ChatGPT-User, Google-Extended, CCBot, anthropic-ai, Claude-Web y Bytespider mientras aún permite que los motores de búsqueda regulares rastreen tu sitio.
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Bytespider
Disallow: /
Esta configuración protege tu contenido de ser usado para entrenamiento de IA mientras mantienes la visibilidad en los motores de búsqueda.
¿Puedo usar comodines en rutas de robots.txt?
Sí, la mayoría de rastreadores modernos soportan * (coincide con cualquier secuencia) y $ (coincide con el final de la URL). Estos comodines permiten coincidencia de patrones poderosa para reglas complejas.
| Patrón | Significado | Ejemplo |
|---|---|---|
* |
Coincide con cualquier secuencia de caracteres | /search?* bloquea todas las consultas de búsqueda |
$ |
Coincide con el final de la URL | /*.pdf$ bloquea todos los archivos PDF |
*$ |
Patrón combinado | /*?sort=*$ bloquea URLs con parámetros de ordenamiento |
¿Están mis datos seguros?
100% privado: Esta herramienta se ejecuta completamente en tu navegador usando JavaScript del lado del cliente. No se envían datos a ningún servidor — tu contenido de robots.txt permanece en tu dispositivo.
- Sin cargas de servidor ni transmisión de datos
- Sin seguimiento ni análisis de tu contenido
- Sin almacenamiento de tu configuración
- Privacidad y seguridad completas
Aún no hay comentarios. ¡Sé el primero en comentar!