Qué es Googlebot

Cuando hablamos de Googlebot, estamos haciendo referencia en SEO, al robot de Google que rastrea las diferentes páginas web accesibles, para ver su contenido, clasificarlo e indexarlo en su índice. Todos los buscadores tienen arañas o bots que rastrean las diferentes páginas web accesibles, en el caso de Google, Googlebot es el rastreador que realiza esta función.

Googlebot no sólo tiene la capacidad de rastrear e indexar los sitios web de internet, sino que además puede extraer información de ficheros como puedan ser PDF, XLS, DOC, etc.

El desarrollo de Googlebot hace que incluso pueda acceder y leer algún tipo de JavaScript y archivos CSS, por lo que recientemente se recomienda no bloquear estos contenidos a los ojos de Googlebot.

Cómo funciona Googlebot

El robot necesita una cantidad ingente de recursos, pues debe rastrear continuamente millones de páginas web. Para ello, lo hace a través de un rastreo algorítmico, es decir, una lógica eurística que le proporcionan sus programas informáticos, le fijan todos los sitios que se deben rastrear, las páginas que hay que explorar en cada uno de ellos o profundidad que debe alcanzar en cada sitio, con qué frecuencia debe hacerlo e incluso dedicar tiempo a investigar y descubrir nuevas páginas web.

Para ello, el robot descarga copias de las páginas que rastrea y realiza este rastreo a una enorme velocidad, pudiendo producirse desde varios lugares distintos, ya que tiene la capacidad de distribuirse en distintos equipos para optimizar su rendimiento y acceder a las páginas web desde diferentes ubicaciones.

A pesar de los infinitos rastreos que realiza con enorme velocidad, su objetivo siempre es rastrear el mayor número de páginas sin saturar el servidor donde éstas se ubican y sin colapsar el ancho de banda del mismo.

El algoritmo, en el que influirán más de 200 factores, determinará la frecuencia con la que debe rastrear cada página, y según vaya haciéndolo, irá almacenando éstas a través de la indexación, para poder conocer su contenido y ofrecérselas luego a los usuarios cuando hacen búsquedas en su motor de búsqueda, Google.

Ventajas que ofrece Googlebot

Su principal ventaja es que, una vez conseguimos que rastree nuestra página, va a indexar y almacenar la misma de manera que puede ofrecerla como resultado de búsqueda a usuarios cuando encuentre que va a ser relevante para ellos, otorgándonos la visibilidad tan deseada en el mayor buscador del planeta, Google.

Por ello debemos facilitar el acceso a Googlebot a todos aquellos contenidos de nuestro sitio web que queremos que se indexen y sean mostrados a los usuarios, evitando usar formas de programación no accesibles para la araña, como pueda ser la programación con tablas (<frame>, <iframe>), el uso de tecnología flash; o haciendo una correcta implementación de aquellas que limitan y dificultan la indexación, como sucede con el uso de AJAX, JavaScript, etc.

En caso de que existan ciertos contenidos de nuestra web que no queramos que sean registrados por Google, ya sea por privacidad o por contener elementos que no son de nuestro interés publicar, debemos impedir total o parcialmente, el paso a Googlebot para que no pueda indexar nuestro contenido. Esto lo podremos hacer a través del archivo robots.txt, con la metaetiqueta robots, en las directivas HTTP X.Robots-Tag o a través de la inclusión de restricciones como contraseñas o IPs.

Igualmente puedes con esas metaetiquetas, darle directivas a Googlebot para que indexe o no el contenido, siga o no los enlaces del sitio, etc.

Inconvenientes de Googlebot

Puedes encontrar situaciones en las que Googlebot sea un problema o inconveniente, por ejemplo si no quieres que acceda a partes de tu sitio web, ya hemos explicado que deber indicarle a través de los mecanismos comentados, que no debe hacerlo. Pero a veces sucede que aunque le hemos dado esa directiva, se la salta y acaba indexando contenidos que no deseamos que lo sean.

Igualmente puede que nuestro servidor esté limitado y que la frecuencia de rastreo sea un problema, o a la inversa, que estimemos que el tiempo entre rastreo y rastreo del Googlebot, haya descendido. En estos casos, podemos indicar a través de GSC (Google Search Console), que aumente o disminuya la frecuencia de rastreo.

En caso de que la araña de Google pase poco por nuestra web, también debemos plantearnos que no la encuentra relevante, por lo que deberemos mejorar la indexabilidad, contenido, enlazado, popularidad y demás factores que influyen en hacer nuestro sitio relevante a ojos del algoritmo de Google.

Familia Googlebot

Con el tiempo Google ha ido aumentando la familia de rastreadores y aunque sigue siendo el principal agente de usuario o user agent de Google, han surgido a partir de él otros nuevos bots:

  • Googlebot News.
  • Googlebot Images.
  • Googlebot Vídeo.
  • Googlebot Mobile.
  • Google Mobile AdSense.
  • AdSense de Google.
  • Google AdsBot.

Fuentes

Rastreadores de Google.

El robot de Google.

¿Te ha gustado el artículo? ¡Compártelo!