Checker y Validador de robots.txt
El único checker gratuito de robots.txt que muestra qué has bloqueado para ChatGPT, Perplexity y Claude — junto con análisis completo de directivas, evaluación de rastreabilidad y recomendaciones SEO en lenguaje claro. Sin registro.
¿Qué es un archivo robots.txt ?
Un archivo simple pero crítico que indica a los motores de búsqueda y bots cómo rastrear tu sitio web.
Un archivo robots.txt es un archivo de texto plano colocado en la raíz de tu sitio web (por ejemplo, https://example.com/robots.txt) que sigue el Protocolo de Exclusión de Robots, un estándar web con décadas de antigüedad.
Permite a los propietarios de sitios controlar qué páginas pueden rastrear motores de búsqueda como Google, Bing y otros. Puedes permitir todo, bloquear secciones específicas (como páginas de administración o contenido duplicado) o restringir el acceso de determinados bots por completo.
Es uno de los primeros archivos que la mayoría de rastreadores consultan al visitar tu sitio, lo que lo convierte en una pieza fundamental de la configuración técnica SEO.
Ejemplo de robots.txt
User-agent: * Disallow: /admin/ Disallow: /checkout/ Allow: /blog/ User-agent: GPTBot Disallow: / Sitemap: https://example.com/sitemap.xml
Términos clave explicados
User-agentA qué bot se aplica esta regla (* = todos los bots)DisallowRutas que el bot NO debe rastrearAllowRutas que el bot SÍ puede rastrear (anula a Disallow)SitemapURL de tu sitemap XML para un descubrimiento más rápidoPor qué robots.txt importa para el SEO técnico
Controla el presupuesto de rastreo
Los motores de búsqueda asignan un número limitado de solicitudes de rastreo por sitio. Al bloquear páginas que no necesitan ser indexadas (como paneles de administración, páginas duplicadas o resultados de búsqueda interna), ayudas a los motores de búsqueda a centrarse en lo que realmente importa.
Guía el descubrimiento de bots
La directiva Sitemap en robots.txt apunta a los rastreadores directamente a tu sitemap XML, acelerando el descubrimiento de tus páginas más importantes. Es una pequeña adición que puede mejorar significativamente la eficiencia del rastreo.
Controla los rastreadores de IA
Las empresas de IA rastrean cada vez más la web para entrenar sus modelos. robots.txt te permite excluir bots de IA específicos del acceso a tu contenido — útil si te preocupa que tu contenido se use para entrenar IA sin tu consentimiento. Para un control más detallado del acceso de IA, revisa también tu archivo llms.txt — te permite señalar la intención a los sistemas de IA más allá de lo que cubre robots.txt.
El error de robots.txt más peligroso
Disallow: / bajo User-agent: * bloquea TODOS los motores de búsqueda para que no rastreen todo tu sitio web. Este único error de configuración puede hacer que tu sitio desaparezca casi por completo de Google. Es sorprendentemente común — especialmente tras migraciones de sitios, actualizaciones de CMS, o cuando los desarrolladores olvidan eliminar un bloqueo de entorno de pruebas antes del lanzamiento. Nuestro checker lo señala de inmediato.
robots.txt controla el rastreo, no la indexación
Un matiz importante: bloquear una página en robots.txt impide que los rastreadores la visiten, pero no garantiza que esa página no aparezca en los resultados de búsqueda. Si la página está enlazada desde otros sitios, Google podría seguir mostrándola con un fragmento de "No hay información disponible". Para evitar por completo que una página aparezca en los resultados de búsqueda, usa la meta tag noindex — y no bloquees esa página en robots.txt, o Google no podrá leer la instrucción noindex.
Errores comunes de robots.txt y cómo solucionarlos
La mayoría de los problemas de robots.txt son fáciles de solucionar una vez que sabes qué buscar.
Bloquea a todos los bots de todo
Código problemático
User-agent: * Disallow: /
Cómo solucionarlo
Cambia a "Disallow:" (vacío) para permitir todo el rastreo, o especifica solo las rutas que quieres bloquear.
Bloqueo accidental de una página clave
Código problemático
Disallow: /important-blog-post/
Cómo solucionarlo
Audita tus reglas Disallow regularmente — especialmente tras reestructuraciones del sitio. Usa este checker para detectar rutas que puedas haber pasado por alto.
Falta la declaración de Sitemap
Código problemático
(No Sitemap directive)
Cómo solucionarlo
Añade "Sitemap: https://yourdomain.com/sitemap.xml" para ayudar a los rastreadores a encontrar todas tus páginas más rápido.
Líneas mal formadas sin dos puntos
Código problemático
Disallow /admin
Cómo solucionarlo
Cada directiva debe seguir el formato "Directiva: valor", por ejemplo, "Disallow: /admin/". Las líneas sin dos puntos son ignoradas por la mayoría de los rastreadores.
Directivas sin un encabezado User-agent
Código problemático
(No User-agent group)
Cómo solucionarlo
Cada grupo de reglas debe comenzar con una línea User-agent. Las reglas Disallow o Allow huérfanas pueden ignorarse por completo.
Comodín demasiado amplio que bloquea cadenas de consulta
Código problemático
Disallow: /*?
Cómo solucionarlo
Patrones comodín como "/*?" bloquean todas las URLs con parámetros de consulta, lo que puede bloquear inadvertidamente páginas paginadas o filtradas importantes.
Cómo funciona este checker de robots.txt
Qué comprobamos y qué significa cada resultado.
Existencia del archivo
Hacemos fetch a /robots.txt desde la raíz de tu dominio y confirmamos que devuelve HTTP 200.
Accesibilidad pública
Verificamos que el archivo sea accesible públicamente sin autenticación (sin respuestas 401/403).
Content-Type
Comprobamos que el archivo se sirva como text/plain, el tipo MIME esperado para robots.txt.
Presencia de User-agent
Detectamos si se han definido reglas de User-agent, incluyendo un comodín general (*).
Reglas Disallow/Allow
Analizamos y contamos todas las directivas Disallow y Allow en todos los grupos de bots.
Declaración de Sitemap
Comprobamos si hay una directiva Sitemap y listamos las URLs de sitemap declaradas.
Rutas importantes
Señalamos si rutas comúnmente importantes (/blog, /products, /) están siendo bloqueadas sin querer.
Detección de Disallow total
Detectamos el error crítico de bloquear a todos los bots de todas las páginas (Disallow: /).
Reglas de comodín amplias
Señalamos patrones comodín demasiado amplios como /* o /? que pueden bloquear de forma demasiado agresiva.
Líneas mal formadas
Identificamos líneas que no siguen una sintaxis válida de robots.txt (faltan dos puntos, directivas desconocidas).
Directivas huérfanas
Detectamos reglas Disallow/Allow que aparecen antes de cualquier declaración User-agent.
Vista previa del archivo
Mostramos los primeros 1.500 caracteres de tu robots.txt real para que puedas inspeccionarlo directamente.
Cómo interpretar los resultados
Esta verificación cumple las buenas prácticas. No es necesaria ninguna acción.
Mejora recomendada. El archivo sigue funcionando, pero merece la pena abordarlo.
Problema crítico que debe corregirse. Esto puede dañar tu rastreabilidad o SEO.
Preguntas frecuentes sobre robots.txt
¿Qué es un archivo robots.txt?+
¿robots.txt afecta al SEO?+
¿Cuál es la diferencia entre robots.txt y noindex?+
¿Qué significa Disallow: / en robots.txt?+
¿Qué es User-agent en robots.txt?+
¿Qué es la directiva Sitemap en robots.txt?+
¿Puede robots.txt bloquear rastreadores de IA como GPTBot?+
¿Cómo pruebo mi archivo robots.txt?+
¿Qué es Crawl-delay en robots.txt?+
¿Cuál es el tamaño máximo de un archivo robots.txt?+
¿No tener robots.txt perjudica el SEO?+
Comprobar otro dominio
Ejecuta el validador de robots.txt en cualquier sitio web — un competidor, el sitio de un cliente, o tu propio dominio tras hacer mejoras.
Comprueba tus otras señales de SEO técnico:
¿Quieres información más profunda sobre visibilidad en IA?
Empieza una prueba gratis →