El archivo robots.txt
es un elemento clave en la optimización para motores de búsqueda (SEO), ya que le indica a los rastreadores web (como Googlebot) qué partes de un sitio web pueden o no pueden ser exploradas. Aunque robots.txt
no influye directamente en los rankings de búsqueda, sí puede ayudar a gestionar el presupuesto de rastreo y evitar la indexación de contenido no deseado.
A continuación, te detallo todos los comandos que se pueden utilizar en un archivo robots.txt
y su impacto en SEO:
1. Comandos principales de robots.txt
1.1. User-agent
Este comando especifica a qué rastreadores se aplican las reglas siguientes. Puedes definir reglas específicas para cada rastreador o usar un comodín (*
) para aplicarlas a todos.
Ejemplo:
Significa que las reglas siguientes aplican a todos los bots.
Solo aplica a Googlebot.
1.2. Disallow
Impide que los rastreadores accedan a ciertas partes del sitio web. Es útil para evitar la indexación de páginas sin valor SEO (ej. panel de administración, páginas duplicadas, etc.).
Ejemplo:
Prohíbe a los rastreadores acceder a cualquier URL que comience con /admin/
.
Impide que los bots rastreen una página en particular.
⚠ Importante: Disallow
no impide la indexación si la URL está enlazada desde otro sitio. Para evitar la indexación, es mejor usar la etiqueta <meta name="robots" content="noindex">
dentro del HTML.
1.3. Allow
Permite el rastreo de ciertas rutas incluso si una regla Disallow
más general las bloquea. Solo es relevante para Googlebot y algunos otros rastreadores modernos.
Ejemplo:
Prohíbe el acceso a /images/
excepto a /images/public/
.
1.4. Sitemap
Especifica la URL de un mapa del sitio en formato XML para ayudar a los rastreadores a descubrir páginas importantes.
Ejemplo:
SEO Tip: Aunque Google y otros motores detectan sitemaps desde Google Search Console, incluirlo en robots.txt
facilita su descubrimiento.
1.5. Crawl-delay
(No soportado por Google)
Define un retraso en segundos entre solicitudes del rastreador para evitar la sobrecarga del servidor. Google no lo respeta, pero sí Bing, Yandex y otros.
Ejemplo:
Indica que el bot debe esperar 10 segundos entre cada solicitud.
Para Google, este control debe configurarse en Google Search Console.
2. Comandos avanzados y combinaciones
2.1. Uso de comodines (*
y $
)
*
= Representa cualquier secuencia de caracteres.$
= Indica el final de una URL.
Ejemplo 1: Bloquear todos los archivos .pdf
Esto impide que los bots rastreen cualquier archivo que termine en .pdf
.
Ejemplo 2: Bloquear todas las URLs con parámetros
Impide el rastreo de URLs con ?
, lo que es útil para evitar la indexación de versiones duplicadas con parámetros.
2.2. Bloquear solo imágenes o ciertos archivos
Si deseas bloquear imágenes en la búsqueda de imágenes de Google sin afectar otras páginas:
Esto impide que Google indexe imágenes.
Para bloquear solo un tipo de archivo específico (ej. .jpg
):
2.3. Diferentes reglas para distintos bots
Puedes definir reglas específicas para ciertos rastreadores.
Ejemplo:
Googlebot no rastreará /no-google/
, pero sí /no-bing/
, mientras que Bingbot hará lo contrario.
3. Errores comunes que afectan al SEO
-
Bloquear el acceso a todo el sitio sin querer
❌ Esto impide que los motores de búsqueda rastreen el sitio completo.
-
Confiar en
robots.txt
para evitar la indexación
Si una página está bloqueada enrobots.txt
pero tiene enlaces entrantes, aún puede aparecer en Google sin contenido. -
No incluir
Allow
cuando es necesario
Si bloqueas un directorio entero sin excepciones, puedes impedir que se indexen recursos esenciales.
Conclusión
El archivo robots.txt
es una herramienta poderosa para gestionar el rastreo de un sitio web, pero mal configurado puede afectar negativamente el SEO. Se recomienda:
- Usar
Disallow
solo cuando sea estrictamente necesario. - Combinar
robots.txt
conmeta robots
(noindex
) para un mejor control de indexación. - Usar
Sitemap
para facilitar la indexación de contenido relevante.
Si tienes un sitio grande, optimizar robots.txt
correctamente puede ayudar a mejorar el rastreo y la eficiencia del presupuesto de rastreo en los motores de búsqueda. Echa un vistazo a las técnicas avanzadas de SEO según Google.
Leave A Comment