El archivo robots.txt es un elemento clave en la optimización para motores de búsqueda (SEO), ya que le indica a los rastreadores web (como Googlebot) qué partes de un sitio web pueden o no pueden ser exploradas. Aunque robots.txt no influye directamente en los rankings de búsqueda, sí puede ayudar a gestionar el presupuesto de rastreo y evitar la indexación de contenido no deseado.

A continuación, te detallo todos los comandos que se pueden utilizar en un archivo robots.txt y su impacto en SEO:


1. Comandos principales de robots.txt

1.1. User-agent

Este comando especifica a qué rastreadores se aplican las reglas siguientes. Puedes definir reglas específicas para cada rastreador o usar un comodín (*) para aplicarlas a todos.

Ejemplo:

User-agent: *

Significa que las reglas siguientes aplican a todos los bots.

User-agent: Googlebot

Solo aplica a Googlebot.


1.2. Disallow

Impide que los rastreadores accedan a ciertas partes del sitio web. Es útil para evitar la indexación de páginas sin valor SEO (ej. panel de administración, páginas duplicadas, etc.).

Ejemplo:

Disallow: /admin/

Prohíbe a los rastreadores acceder a cualquier URL que comience con /admin/.

Disallow: /privado.html

Impide que los bots rastreen una página en particular.

Importante: Disallow no impide la indexación si la URL está enlazada desde otro sitio. Para evitar la indexación, es mejor usar la etiqueta <meta name="robots" content="noindex"> dentro del HTML.


1.3. Allow

Permite el rastreo de ciertas rutas incluso si una regla Disallow más general las bloquea. Solo es relevante para Googlebot y algunos otros rastreadores modernos.

Ejemplo:

User-agent: *
Disallow: /images/
Allow: /images/public/

Prohíbe el acceso a /images/ excepto a /images/public/.


1.4. Sitemap

Especifica la URL de un mapa del sitio en formato XML para ayudar a los rastreadores a descubrir páginas importantes.

Ejemplo:

Sitemap: https://www.ejemplo.com/sitemap.xml

SEO Tip: Aunque Google y otros motores detectan sitemaps desde Google Search Console, incluirlo en robots.txt facilita su descubrimiento.


1.5. Crawl-delay (No soportado por Google)

Define un retraso en segundos entre solicitudes del rastreador para evitar la sobrecarga del servidor. Google no lo respeta, pero sí Bing, Yandex y otros.

Ejemplo:

Crawl-delay: 10

Indica que el bot debe esperar 10 segundos entre cada solicitud.

Para Google, este control debe configurarse en Google Search Console.


2. Comandos avanzados y combinaciones

2.1. Uso de comodines (* y $)

  • * = Representa cualquier secuencia de caracteres.
  • $ = Indica el final de una URL.

Ejemplo 1: Bloquear todos los archivos .pdf

User-agent: *
Disallow: /*.pdf$

Esto impide que los bots rastreen cualquier archivo que termine en .pdf.

Ejemplo 2: Bloquear todas las URLs con parámetros

User-agent: *
Disallow: /*?

Impide el rastreo de URLs con ?, lo que es útil para evitar la indexación de versiones duplicadas con parámetros.


2.2. Bloquear solo imágenes o ciertos archivos

Si deseas bloquear imágenes en la búsqueda de imágenes de Google sin afectar otras páginas:

User-agent: Googlebot-Image
Disallow: /

Esto impide que Google indexe imágenes.

Para bloquear solo un tipo de archivo específico (ej. .jpg):

User-agent: *
Disallow: /*.jpg$

2.3. Diferentes reglas para distintos bots

Puedes definir reglas específicas para ciertos rastreadores.

Ejemplo:

User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/

Googlebot no rastreará /no-google/, pero sí /no-bing/, mientras que Bingbot hará lo contrario.


3. Errores comunes que afectan al SEO

  1. Bloquear el acceso a todo el sitio sin querer

    User-agent: *
    Disallow: /

    ❌ Esto impide que los motores de búsqueda rastreen el sitio completo.

  2. Confiar en robots.txt para evitar la indexación
    Si una página está bloqueada en robots.txt pero tiene enlaces entrantes, aún puede aparecer en Google sin contenido.

  3. No incluir Allow cuando es necesario
    Si bloqueas un directorio entero sin excepciones, puedes impedir que se indexen recursos esenciales.


Conclusión

El archivo robots.txt es una herramienta poderosa para gestionar el rastreo de un sitio web, pero mal configurado puede afectar negativamente el SEO. Se recomienda:

  • Usar Disallow solo cuando sea estrictamente necesario.
  • Combinar robots.txt con meta robots (noindex) para un mejor control de indexación.
  • Usar Sitemap para facilitar la indexación de contenido relevante.

Si tienes un sitio grande, optimizar robots.txt correctamente puede ayudar a mejorar el rastreo y la eficiencia del presupuesto de rastreo en los motores de búsqueda. Echa un vistazo a las técnicas avanzadas de SEO según Google.