Question 1

¿Qué es un archivo robots.txt?

Accepted Answer

Un archivo robots.txt es un archivo de texto plano colocado en la raíz de un sitio web (por ejemplo, https://example.com/robots.txt) que indica a los rastreadores de motores de búsqueda y otros bots qué páginas o secciones del sitio tienen permitido o no acceder. Sigue el Protocolo de Exclusión de Robots, un estándar web ampliamente adoptado. Piénsalo como un conjunto de indicaciones que dejas para los bots antes de que entren en tu sitio.

Question 2

¿robots.txt afecta al SEO?

Accepted Answer

Sí, robots.txt tiene un impacto directo en lo que los motores de búsqueda pueden rastrear y, por tanto, en lo que pueden potencialmente indexar y posicionar. Si bloqueas accidentalmente páginas críticas con robots.txt, esas páginas no aparecerán en los resultados de búsqueda, sin importar lo bueno que sea su contenido. Sin embargo, robots.txt controla el rastreo, no la indexación: una página puede seguir apareciendo en los resultados de búsqueda si está enlazada desde otro sitio, incluso si robots.txt impide su rastreo. Para un control total sobre la indexación, usa la meta tag noindex.

Question 3

¿Cuál es la diferencia entre robots.txt y noindex?

Accepted Answer

robots.txt indica a los rastreadores que no visiten una página. La meta tag noindex les indica que pueden visitar la página pero que no deben incluirla en los resultados de búsqueda. Sirven para propósitos distintos: usa robots.txt para ahorrar presupuesto de rastreo y evitar el acceso a páginas privadas; usa noindex para permitir que los rastreadores accedan al contenido pero mantenerlo fuera de los resultados de búsqueda. Bloquear una página en robots.txt y añadir noindex es redundante — los rastreadores no pueden leer la etiqueta noindex si tienen el acceso bloqueado.

Question 4

¿Qué significa Disallow: / en robots.txt?

Accepted Answer

"Disallow: /" significa que todas las rutas del sitio web están bloqueadas. Cuando se combina con "User-agent: *" (que apunta a todos los bots), efectivamente impide que cualquier motor de búsqueda y rastreador acceda a cualquier página de tu sitio. Este es uno de los errores de robots.txt más comunes y dañinos — elimina por completo tu sitio de los índices de los motores de búsqueda. Solo usa "Disallow: /" para bots específicos que intencionalmente quieras bloquear, nunca bajo "User-agent: *" a menos que quieras que tu sitio desaparezca de la búsqueda.

Question 5

¿Qué es User-agent en robots.txt?

Accepted Answer

La directiva User-agent especifica a qué bot o rastreador se aplican las siguientes reglas. "User-agent: *" apunta a todos los bots, mientras que "User-agent: Googlebot" aplica reglas solo al rastreador de Google. Puedes tener múltiples grupos User-agent en un único archivo robots.txt, cada uno con su propio conjunto de reglas Disallow y Allow. Las reglas se aplican por grupo, por lo que distintos bots pueden recibir instrucciones diferentes.

Question 6

¿Qué es la directiva Sitemap en robots.txt?

Accepted Answer

La directiva Sitemap en robots.txt indica a los rastreadores dónde encontrar tu sitemap XML — por ejemplo: "Sitemap: https://example.com/sitemap.xml". Esta es una de las formas más eficaces de ayudar a los motores de búsqueda a descubrir rápidamente todas tus páginas importantes. Incluir una línea Sitemap en tu robots.txt es una buena práctica SEO ampliamente recomendada, incluso si también has enviado tu sitemap directamente en Google Search Console.

Question 7

¿Puede robots.txt bloquear rastreadores de IA como GPTBot?

Accepted Answer

Sí. Puedes usar robots.txt para indicar a rastreadores de IA específicos que se mantengan fuera de tu sitio. Por ejemplo, "User-agent: GPTBot" seguido de "Disallow: /" pedirá al rastreador de OpenAI que evite tu contenido. Otros user-agents de bots de IA incluyen CCBot (Common Crawl), Google-Extended (datos de entrenamiento de IA de Google) y PerplexityBot. Ten en cuenta que se espera que estos bots respeten robots.txt, pero el cumplimiento es voluntario — no existe un mecanismo técnico de aplicación.

Question 8

¿Cómo pruebo mi archivo robots.txt?

Accepted Answer

Puedes probar tu archivo robots.txt usando herramientas como esta (introduce tu dominio arriba), o usando el probador de robots.txt de Google Search Console, que también te permite probar cómo se tratan URLs específicas con tus reglas actuales. Acceder directamente a https://yourdomain.com/robots.txt en un navegador es la forma más rápida de confirmar que el archivo existe y ver su contenido.

Question 9

¿Qué es Crawl-delay en robots.txt?

Accepted Answer

"Crawl-delay" es una directiva opcional que indica a los rastreadores cuántos segundos esperar entre solicitudes. Por ejemplo, "Crawl-delay: 10" pide a los bots que esperen 10 segundos entre cada solicitud de página. Está pensada para reducir la carga del servidor causada por el rastreo agresivo. Ten en cuenta que Google no admite oficialmente la directiva Crawl-delay — usa la configuración de la frecuencia de rastreo de Google Search Console para gestionar la velocidad de Googlebot en su lugar.

Question 10

¿Cuál es el tamaño máximo de un archivo robots.txt?

Accepted Answer

Los rastreadores de Google leerán los primeros 500 kibibytes (aproximadamente 500 KB) de un archivo robots.txt e ignorarán cualquier cosa más allá. La mayoría de los sitios nunca se acercarán a este límite — un robots.txt bien estructurado suele tener unas pocas docenas de líneas. Si tu archivo está creciendo mucho, vale la pena auditar si todas esas reglas siguen siendo necesarias.

Question 11

¿No tener robots.txt perjudica el SEO?

Accepted Answer

No tener un archivo robots.txt no perjudica directamente tu SEO. Sin un archivo robots.txt, los rastreadores que cumplen las normas asumirán que pueden acceder a todo. Sin embargo, sin uno pierdes la oportunidad de declarar la ubicación de tu sitemap, bloquear áreas privadas de tu sitio y controlar el presupuesto de rastreo para sitios web grandes. Añadir un robots.txt correctamente configurado es una buena práctica de SEO técnico que cuesta poco esfuerzo pero aporta beneficios reales.

Checker y Validador de robots.txt

¿Qué es un archivo robots.txt ?

Ejemplo de robots.txt

Términos clave explicados

Por qué robots.txt importa para el SEO técnico

Controla el presupuesto de rastreo

Guía el descubrimiento de bots

Controla los rastreadores de IA

El error de robots.txt más peligroso

robots.txt controla el rastreo, no la indexación

Errores comunes de robots.txt y cómo solucionarlos

Bloquea a todos los bots de todo

Bloqueo accidental de una página clave

Falta la declaración de Sitemap

Líneas mal formadas sin dos puntos

Directivas sin un encabezado User-agent

Comodín demasiado amplio que bloquea cadenas de consulta

Cómo funciona este checker de robots.txt

Existencia del archivo

Accesibilidad pública

Content-Type

Presencia de User-agent

Reglas Disallow/Allow

Declaración de Sitemap

Rutas importantes

Detección de Disallow total

Reglas de comodín amplias

Líneas mal formadas

Directivas huérfanas

Vista previa del archivo

Cómo interpretar los resultados

Preguntas frecuentes sobre robots.txt

Comprobar otro dominio