Robot de GoogleMuchas veces nos preguntamos la forma en que los buscadores clasifican los sitios web. Este post está dirigido a aquellos que quieren conocer más a fondo Google y sus arañas o robots, a los que hemos llamado aquí “Súper Secretarias“. Los buscadores como Google, Yahoo, Ask, MSN Search y muchos más, están compuestos fundamentalmente de tres partes:

  1. Arañas o Robots
  2. Indice o Catálogo
  3. Interfaz de Búsqueda




Partes de un Buscador:

  • Robots: Son pequeños progamillas de cada buscador, que van recorriendo toda la web en busca de enlaces para seguirlos y así conocer páginas nuevas. Las arañas o robots pueden tener distintos nombres según quién los haya creado: Googlebot, MSNbot, Slurp (Yahoo), etc. Una vez entran en una página, su misión es descargarla y guardarla en su índice, conservando una copia en caché. Podríamos decir que una araña es el quivalente a una súper secretaria que va segmentando todas las páginas de la web y añadiendo una pequeña ficha técnica de cada una de ellas.

    Muchos quisieran saber la frecuencia de rastreo de estos robots o arañas o súper secretarias, y la realidad es que depende prácticamente al 100% de la periodicidad de tu sitio en cuanto a contenido publicado, sea lo que sea, siempre y cuando tenga una url y un link que apunte hacia dicha página. Es decir, si publicas contenido todos los días, al cabo de unos meses la araña se acostumbrará a esta frecuencia y entenderá que ha de acudir todos los días a dicha página si quiere estar al día de lo que allí se publica. Si quiere que una nueva url de su web (nueva página con dirección propia – URL-), sólo tiene que añadir un enlace desde otra página ya indexada o simplemente, enviar una petición expresa a ese buscador en la página de solicitudes de alta. El periodo de espera es mucho menor en el primer caso (insertar enlace) que en el segundo.

    Por último, sobre las arañas o robots, decir que no leen las imágenes, ni el contenido en Flash, Gif animados, Silverlight, video, etc,  pero para ello le atribuiremos títulos alternativos (alt=”Partes de un Buscador”) a cada contenido que creamos que Google no pueda leer. Desde luego la mejor forma de asegurarte de que las arañas entren bien a tu web y lean todo el contenido es subiendo un Sitemap o Mapa de Sitio en formato .xml. Para ello, existen diversas formas que podríamos mostrar en otro post si algún lector lo solicitara.


  • Índice: Lógicamente es dónde queda almacenada toda la información recogida por la araña o robot. Se rumorea, porque nadie lo sabe a ciencia cierta más que ellos mismos (Google), que utilizan hasta 200 factores diferentes para clasificar una página determinada.

  • Interfaz de Búsqueda: Es la pantalla en la que se muestran los resultados. Su objetivo es presentar las coincidencias más relevantes de cada consulta hecha por el usuario. Según Fernando Maciá Domene, pionero del SEO en España, ” Dos conceptos fundamentales son recurrentes: las palabras de una página web, que guardan estrrecha relación con su relevancia, es decir, lo que podríamos llamar factores on page, ; y los enlaces de una página web, que tienen que ver con su popularidad a los que denominamos factores off page. Estos aspectos, relevancia y pupularidad, son los que deciden en un buscador el orden que presentará sus resultados.”

Le puede interesar ¿Cómo funciona el algoritmo de Google?