Hoy vamos a tratar un tema peliagudo, Solucionar Contenido Duplicado con Robots.txt. Antes de nada, puedo decir que he probado estas técnicas en múltiples ocasiones. Además, he de decir que esta NO es la única ni la mejor forma de solucionar Contenido Duplicado en Página ni Contenido Duplicado en Títulos.

Existen otras formas de corregir el problema como la redirección permanente 301, canonicalización, etc. Puede obtener más información aquí.

¿Qué es el Robots.txt?

Al grano y evitando definiciones técnicas complejas, el archivo de texto robots.txt se crea y se sube a nuestro servidor web con el objetivo de comunicarle a Google y otros buscadores como Yahoo, Aol, etc, que NO indexen ciertas urls (direcciones). Al subirlo a tu servidor web via FTP o dentro de tu proveedor de hosting, se le asignará una url pública que tiene que quedar así: www.tudominio.com/robots.txt.

¿Qué es el contenido duplicado?

Generalmente hay dos tipos de contenido duplicado: El de Página (mismo contenido en dos o más urls) y el de Meta Títulos (Distintas URls con mismo título). Aunque muchos Black Hat SEOs utilizan el contenido duplicado para tratar de engañar a Google y obtener varias páginas optando a aparecer por la misma keyword, Google establece en sus directrices para Webmasters que hay que evitarlo a toda costa, pudiendo caer en penalizaciones de puestos en Ranking.

¿Cómo configuramos el Robots.txt?

Su dominio no tiene por qué tener este archivo, pero lo podemos crear desde tu servidor web. Con un simple editor de textos como el Notepad, creamos un archivo de texto llamado robots.txt y lo subimos a la carpeta raiz de nuestra web. Si lo has hecho bien, podrás automáticamente verlo en www.tuweb.com/robots.txt. Una vez hayas comprobado que se vea en dicha url, podemos modificarlo.

Abrimos el archivo con el mismo editor de texto que usamos anteriormente pero desde tu servidor web, dándole al botón derecho del archivo y pulsando en “Ver/Editar”. Entonces sólo tienes que poner el código “User-agent: *
Disallow: “, para que las medidas se apliquen a todos los buscadores, aunque esto puedes cambiarlo. Una vez hayas hecho esto, debajo de Disallow pones las urls completas que están duplicadas. Mira la foto de abajo y también comprueba el Robots.txt de Facebook, por ejemplo.

Además es una práctica recomendada poner también la dirección de tu sitemap.xml, como podrás ver en la imagen. Puedes decirle al robots.txt que ignore todas las subcarpetas, como en el caso de todahistoria.com/page/…, tan solo poniendo debajo de Disallow: /page/

¿Cuánto tarda Google en reconocer los cambios?

El tiempo puede variar en función de la frecuencia con la que sus robots analicen tu web. En teoría, cuanto más contenido publiques tú en tu página, con periodicidad diaria, más veces entrarán los robots a tu página. Cada vez que entren, encontrará un archivo que les limita su inspección, este es el robots.txt.