Herramienta gratis — Sin registro

Checker y Validador de robots.txt

El único checker gratuito de robots.txt que muestra qué has bloqueado para ChatGPT, Perplexity y Claude — junto con análisis completo de directivas, evaluación de rastreabilidad y recomendaciones SEO en lenguaje claro. Sin registro.

Supports example.com, https://example.com, or https://www.example.com

Sin cuenta necesaria Comprueba GPTBot, ClaudeBot y PerplexityBot Más de 10 verificaciones de validación Análisis completo de directivas
Contexto

¿Qué es un archivo robots.txt ?

Un archivo simple pero crítico que indica a los motores de búsqueda y bots cómo rastrear tu sitio web.

Un archivo robots.txt es un archivo de texto plano colocado en la raíz de tu sitio web (por ejemplo, https://example.com/robots.txt) que sigue el Protocolo de Exclusión de Robots, un estándar web con décadas de antigüedad.

Permite a los propietarios de sitios controlar qué páginas pueden rastrear motores de búsqueda como Google, Bing y otros. Puedes permitir todo, bloquear secciones específicas (como páginas de administración o contenido duplicado) o restringir el acceso de determinados bots por completo.

Es uno de los primeros archivos que la mayoría de rastreadores consultan al visitar tu sitio, lo que lo convierte en una pieza fundamental de la configuración técnica SEO.

Ejemplo de robots.txt

User-agent: *
Disallow: /admin/
Disallow: /checkout/
Allow: /blog/

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Términos clave explicados

User-agentA qué bot se aplica esta regla (* = todos los bots)
DisallowRutas que el bot NO debe rastrear
AllowRutas que el bot SÍ puede rastrear (anula a Disallow)
SitemapURL de tu sitemap XML para un descubrimiento más rápido
Impacto SEO

Por qué robots.txt importa para el SEO técnico

🕷️

Controla el presupuesto de rastreo

Los motores de búsqueda asignan un número limitado de solicitudes de rastreo por sitio. Al bloquear páginas que no necesitan ser indexadas (como paneles de administración, páginas duplicadas o resultados de búsqueda interna), ayudas a los motores de búsqueda a centrarse en lo que realmente importa.

🗺️

Guía el descubrimiento de bots

La directiva Sitemap en robots.txt apunta a los rastreadores directamente a tu sitemap XML, acelerando el descubrimiento de tus páginas más importantes. Es una pequeña adición que puede mejorar significativamente la eficiencia del rastreo.

🤖

Controla los rastreadores de IA

Las empresas de IA rastrean cada vez más la web para entrenar sus modelos. robots.txt te permite excluir bots de IA específicos del acceso a tu contenido — útil si te preocupa que tu contenido se use para entrenar IA sin tu consentimiento. Para un control más detallado del acceso de IA, revisa también tu archivo llms.txt — te permite señalar la intención a los sistemas de IA más allá de lo que cubre robots.txt.

⚠️

El error de robots.txt más peligroso

Disallow: / bajo User-agent: * bloquea TODOS los motores de búsqueda para que no rastreen todo tu sitio web. Este único error de configuración puede hacer que tu sitio desaparezca casi por completo de Google. Es sorprendentemente común — especialmente tras migraciones de sitios, actualizaciones de CMS, o cuando los desarrolladores olvidan eliminar un bloqueo de entorno de pruebas antes del lanzamiento. Nuestro checker lo señala de inmediato.

robots.txt controla el rastreo, no la indexación

Un matiz importante: bloquear una página en robots.txt impide que los rastreadores la visiten, pero no garantiza que esa página no aparezca en los resultados de búsqueda. Si la página está enlazada desde otros sitios, Google podría seguir mostrándola con un fragmento de "No hay información disponible". Para evitar por completo que una página aparezca en los resultados de búsqueda, usa la meta tag noindex — y no bloquees esa página en robots.txt, o Google no podrá leer la instrucción noindex.

Errores comunes

Errores comunes de robots.txt y cómo solucionarlos

La mayoría de los problemas de robots.txt son fáciles de solucionar una vez que sabes qué buscar.

crítico

Bloquea a todos los bots de todo

Código problemático

User-agent: *
Disallow: /

Cómo solucionarlo

Cambia a "Disallow:" (vacío) para permitir todo el rastreo, o especifica solo las rutas que quieres bloquear.

alto

Bloqueo accidental de una página clave

Código problemático

Disallow: /important-blog-post/

Cómo solucionarlo

Audita tus reglas Disallow regularmente — especialmente tras reestructuraciones del sitio. Usa este checker para detectar rutas que puedas haber pasado por alto.

medio

Falta la declaración de Sitemap

Código problemático

(No Sitemap directive)

Cómo solucionarlo

Añade "Sitemap: https://yourdomain.com/sitemap.xml" para ayudar a los rastreadores a encontrar todas tus páginas más rápido.

medio

Líneas mal formadas sin dos puntos

Código problemático

Disallow
/admin

Cómo solucionarlo

Cada directiva debe seguir el formato "Directiva: valor", por ejemplo, "Disallow: /admin/". Las líneas sin dos puntos son ignoradas por la mayoría de los rastreadores.

medio

Directivas sin un encabezado User-agent

Código problemático

(No User-agent group)

Cómo solucionarlo

Cada grupo de reglas debe comenzar con una línea User-agent. Las reglas Disallow o Allow huérfanas pueden ignorarse por completo.

medio

Comodín demasiado amplio que bloquea cadenas de consulta

Código problemático

Disallow: /*?

Cómo solucionarlo

Patrones comodín como "/*?" bloquean todas las URLs con parámetros de consulta, lo que puede bloquear inadvertidamente páginas paginadas o filtradas importantes.

Sobre esta herramienta

Cómo funciona este checker de robots.txt

Qué comprobamos y qué significa cada resultado.

🌐

Existencia del archivo

Hacemos fetch a /robots.txt desde la raíz de tu dominio y confirmamos que devuelve HTTP 200.

🔒

Accesibilidad pública

Verificamos que el archivo sea accesible públicamente sin autenticación (sin respuestas 401/403).

📄

Content-Type

Comprobamos que el archivo se sirva como text/plain, el tipo MIME esperado para robots.txt.

👤

Presencia de User-agent

Detectamos si se han definido reglas de User-agent, incluyendo un comodín general (*).

🚦

Reglas Disallow/Allow

Analizamos y contamos todas las directivas Disallow y Allow en todos los grupos de bots.

🗺️

Declaración de Sitemap

Comprobamos si hay una directiva Sitemap y listamos las URLs de sitemap declaradas.

🔍

Rutas importantes

Señalamos si rutas comúnmente importantes (/blog, /products, /) están siendo bloqueadas sin querer.

⚠️

Detección de Disallow total

Detectamos el error crítico de bloquear a todos los bots de todas las páginas (Disallow: /).

🌀

Reglas de comodín amplias

Señalamos patrones comodín demasiado amplios como /* o /? que pueden bloquear de forma demasiado agresiva.

🔧

Líneas mal formadas

Identificamos líneas que no siguen una sintaxis válida de robots.txt (faltan dos puntos, directivas desconocidas).

🤖

Directivas huérfanas

Detectamos reglas Disallow/Allow que aparecen antes de cualquier declaración User-agent.

👁️

Vista previa del archivo

Mostramos los primeros 1.500 caracteres de tu robots.txt real para que puedas inspeccionarlo directamente.

Cómo interpretar los resultados

Aprobado

Esta verificación cumple las buenas prácticas. No es necesaria ninguna acción.

Advertencia

Mejora recomendada. El archivo sigue funcionando, pero merece la pena abordarlo.

Fallo

Problema crítico que debe corregirse. Esto puede dañar tu rastreabilidad o SEO.

Preguntas frecuentes

Preguntas frecuentes sobre robots.txt

¿Qué es un archivo robots.txt?+
Un archivo robots.txt es un archivo de texto plano colocado en la raíz de un sitio web (por ejemplo, https://example.com/robots.txt) que indica a los rastreadores de motores de búsqueda y otros bots qué páginas o secciones del sitio tienen permitido o no acceder. Sigue el Protocolo de Exclusión de Robots, un estándar web ampliamente adoptado. Piénsalo como un conjunto de indicaciones que dejas para los bots antes de que entren en tu sitio.
¿robots.txt afecta al SEO?+
Sí, robots.txt tiene un impacto directo en lo que los motores de búsqueda pueden rastrear y, por tanto, en lo que pueden potencialmente indexar y posicionar. Si bloqueas accidentalmente páginas críticas con robots.txt, esas páginas no aparecerán en los resultados de búsqueda, sin importar lo bueno que sea su contenido. Sin embargo, robots.txt controla el rastreo, no la indexación: una página puede seguir apareciendo en los resultados de búsqueda si está enlazada desde otro sitio, incluso si robots.txt impide su rastreo. Para un control total sobre la indexación, usa la meta tag noindex.
¿Cuál es la diferencia entre robots.txt y noindex?+
robots.txt indica a los rastreadores que no visiten una página. La meta tag noindex les indica que pueden visitar la página pero que no deben incluirla en los resultados de búsqueda. Sirven para propósitos distintos: usa robots.txt para ahorrar presupuesto de rastreo y evitar el acceso a páginas privadas; usa noindex para permitir que los rastreadores accedan al contenido pero mantenerlo fuera de los resultados de búsqueda. Bloquear una página en robots.txt y añadir noindex es redundante — los rastreadores no pueden leer la etiqueta noindex si tienen el acceso bloqueado.
¿Qué significa Disallow: / en robots.txt?+
"Disallow: /" significa que todas las rutas del sitio web están bloqueadas. Cuando se combina con "User-agent: *" (que apunta a todos los bots), efectivamente impide que cualquier motor de búsqueda y rastreador acceda a cualquier página de tu sitio. Este es uno de los errores de robots.txt más comunes y dañinos — elimina por completo tu sitio de los índices de los motores de búsqueda. Solo usa "Disallow: /" para bots específicos que intencionalmente quieras bloquear, nunca bajo "User-agent: *" a menos que quieras que tu sitio desaparezca de la búsqueda.
¿Qué es User-agent en robots.txt?+
La directiva User-agent especifica a qué bot o rastreador se aplican las siguientes reglas. "User-agent: *" apunta a todos los bots, mientras que "User-agent: Googlebot" aplica reglas solo al rastreador de Google. Puedes tener múltiples grupos User-agent en un único archivo robots.txt, cada uno con su propio conjunto de reglas Disallow y Allow. Las reglas se aplican por grupo, por lo que distintos bots pueden recibir instrucciones diferentes.
¿Qué es la directiva Sitemap en robots.txt?+
La directiva Sitemap en robots.txt indica a los rastreadores dónde encontrar tu sitemap XML — por ejemplo: "Sitemap: https://example.com/sitemap.xml". Esta es una de las formas más eficaces de ayudar a los motores de búsqueda a descubrir rápidamente todas tus páginas importantes. Incluir una línea Sitemap en tu robots.txt es una buena práctica SEO ampliamente recomendada, incluso si también has enviado tu sitemap directamente en Google Search Console.
¿Puede robots.txt bloquear rastreadores de IA como GPTBot?+
Sí. Puedes usar robots.txt para indicar a rastreadores de IA específicos que se mantengan fuera de tu sitio. Por ejemplo, "User-agent: GPTBot" seguido de "Disallow: /" pedirá al rastreador de OpenAI que evite tu contenido. Otros user-agents de bots de IA incluyen CCBot (Common Crawl), Google-Extended (datos de entrenamiento de IA de Google) y PerplexityBot. Ten en cuenta que se espera que estos bots respeten robots.txt, pero el cumplimiento es voluntario — no existe un mecanismo técnico de aplicación.
¿Cómo pruebo mi archivo robots.txt?+
Puedes probar tu archivo robots.txt usando herramientas como esta (introduce tu dominio arriba), o usando el probador de robots.txt de Google Search Console, que también te permite probar cómo se tratan URLs específicas con tus reglas actuales. Acceder directamente a https://yourdomain.com/robots.txt en un navegador es la forma más rápida de confirmar que el archivo existe y ver su contenido.
¿Qué es Crawl-delay en robots.txt?+
"Crawl-delay" es una directiva opcional que indica a los rastreadores cuántos segundos esperar entre solicitudes. Por ejemplo, "Crawl-delay: 10" pide a los bots que esperen 10 segundos entre cada solicitud de página. Está pensada para reducir la carga del servidor causada por el rastreo agresivo. Ten en cuenta que Google no admite oficialmente la directiva Crawl-delay — usa la configuración de la frecuencia de rastreo de Google Search Console para gestionar la velocidad de Googlebot en su lugar.
¿Cuál es el tamaño máximo de un archivo robots.txt?+
Los rastreadores de Google leerán los primeros 500 kibibytes (aproximadamente 500 KB) de un archivo robots.txt e ignorarán cualquier cosa más allá. La mayoría de los sitios nunca se acercarán a este límite — un robots.txt bien estructurado suele tener unas pocas docenas de líneas. Si tu archivo está creciendo mucho, vale la pena auditar si todas esas reglas siguen siendo necesarias.
¿No tener robots.txt perjudica el SEO?+
No tener un archivo robots.txt no perjudica directamente tu SEO. Sin un archivo robots.txt, los rastreadores que cumplen las normas asumirán que pueden acceder a todo. Sin embargo, sin uno pierdes la oportunidad de declarar la ubicación de tu sitemap, bloquear áreas privadas de tu sitio y controlar el presupuesto de rastreo para sitios web grandes. Añadir un robots.txt correctamente configurado es una buena práctica de SEO técnico que cuesta poco esfuerzo pero aporta beneficios reales.

Comprobar otro dominio

Ejecuta el validador de robots.txt en cualquier sitio web — un competidor, el sitio de un cliente, o tu propio dominio tras hacer mejoras.

Todas las herramientas gratis

Comprueba tus otras señales de SEO técnico:

¿Quieres información más profunda sobre visibilidad en IA?

Empieza una prueba gratis