Un Web Crawler (también llamado Web Spider) es un programa diseñado para explorar páginas web en forma automática.
La traducción al castellano que se usa corrientemente es «recolector de páginas web» o simplemente «recolector».
El término ‘crawling’ o ‘crawleo’ hace referencia al método o procedimiento utilizado por los motores de búsqueda de Google para clasificar e indexar todas y cada una de las páginas web existentes en la red.
Índice de Contenidos
¿Qué es crawling?
El Crawling es todo el recorrido que realiza una araña o crawler, cualquier bot de indexación enviado por los motores de búsqueda, con el fin de detectar, leer y analizar todo el contenido y el código que compone a una página web. Desde que comienza hasta que termina, tras haber realizado los correspondientes saltos a través de los enlaces de una web, se realizan las labores que comprenden al crawling.
Esta indexación es fundamental para la visibilidad y el posicionamiento orgánico (SEO) de tu página, ya que es lo que va a determinar qué lugar ocupará en la página de resultados tras las búsquedas de los usuarios.
El método de Google y otros buscadores para otorgar un puesto a tu página luego de las búsquedas de los usuarios (es decir, su nivel de posicionamiento orgánico o SEO) proviene de la palabra ‘crawler’, que es una de las diversas formas utilizadas para nombrar a los robots de búsqueda, como por ejemplo arañas, spiders o trepadores.
¿Qué son los crawlers?
Los crawlers, que pueden traducirse literalmente como ‘arrastradores’, son pequeños programas que viajan por la red, enviados por Google (el resto de buscadores utilizan herramientas similares) con una hoja de ruta muy clara: Encontrar todas las páginas web existentes, analizarlas en función de una fórmula o algoritmo, asignarles a cada una de ellas una posición determinada en la SERP.
Hablamos de crawlers en plural y no de crawler en singular porque existen distintos tipos de rastreadores y cada uno de ellos se encarga de analizar y puntuar una información diferente. Uno de ellos es el crawl budget, el cual asigna un tiempo específico a cada link.
Los parámetros del crawling: el gran secreto de Google
En contra de lo que puedan decir supuestos gurús del SEO y de los artículos publicados por el propio Google, donde se explican algunas cuestiones generales (de forma muy atractiva y visual) sobre los criterios de Google para posicionar las páginas luego de las búsquedas de los usuarios, la fórmula exacta del algoritmo no se conoce.
Sí se sabe que existen más de 200 variables, entre las que se encuentran:
- El valor de los contenidos, en calidad y actualizaciones.
- Accesibilidad y fluidez en la navegación de la página.
- Estructura de la página.
- Facilidad de acceso a la web por parte de los rastreadores.
- Calidad técnica de la página, por ejemplo, su velocidad de carga o el nivel de optimización para todo tipo de dispositivos, en especial los móviles (smartphones y tablets).
- Inexistencia de errores.
Al mismo tiempo que son de conocimiento público los aspectos más valorados por Google en cada actualización de su algoritmo, también se sabe que otros han perdido fuerza, como la inclusión directa de las keywords en los encabezados de html (metatags).
El conocimiento y estudio de estos parámetros a considerar en el SEO hace que el concepto de crawling no sea, ni mucho menos, completamente abstracto e ininteligible.
¿Es posible una fórmula exacta?
Pero su fórmula exacta, es decir, la ponderación concreta de cada una de las variables que son tenidas en cuenta por los robots, sigue siendo el gran secreto de Google, celosamente guardado por los responsables de posiblemente la compañía más importante del mundo del ámbito de internet.
Es importante subrayar que el crawling, es decir, el método para determinar el orden de la página tras los resultados de búsqueda, está en constante crecimiento, perfeccionamiento y adecuación a las nuevas tecnologías y formas de uso de internet.
Estas cada vez se decantan más por la navegación en dispositivos móviles, las búsquedas por voz y la importancia de la localización del usuario en el momento de buscar algo en la red.
Actualmente existen muchos buscadores que utilizan este sistema para incrementar sus listas de resultados de búsqueda. También existen crawlers creados con la finalidad de detectar errores que afectan e influyen negativamente en el SEO de una web.
Crawling en SEO, ¿qué es?
El crawling o el rastro de los sitios web es ese recorrido que llevará a cabo un pequeño bot de software, que se llama crawler, este va a leer y analizar cada código y contenido que una web contiene. Va a saltar de una página a otra por medio de los enlaces que va a ir encontrando en su camino. Google tiene su crawler, este se llama GoogleBot, va a encargarse de examinar y rastreas las webs para luego poder incorporar a estas a su índice.
Pero el crawling no se trata de un monopolio del buscador. Además de ser usado por los competidores para los mismos fines, también se cuenta con herramientas de rastreo de un sitio web para que se puedan detectar errores y optimizaciones SEO.
Cómo hace Google crawling de las webs
Lo primero es que Google debe saber de la existencia de la web de una marca o compañía. Así como de la disponibilidad que tiene para el crawler hiciera el proceso del rastreo e indexación de esta. Para eso, se cuenta con distintas opciones, siendo la más común la creación de un enlace externo hacia la web en sí o el alta en Search Console, entre otras más.
Luego de este punto, el crawler de Google va a comenzar el proceso de rastreo de la web. Entrando a todas las páginas por medio de distintos enlaces internos que se hayan creado. También puede tomar distintas fuentes para conseguir una página o sección de la web, como por ejemplo la existencia de un archivo Sitemap que se haya dado de alta en Search Console.
El Crawl Budget y cómo afecta este al SEO
Cuando hablamos de crawler de Google hay que señalar que este no va a existir solamente para que se rastree nuestra web. Debido a la presencia de los distintos portales de internet, los recursos que va a destinar el GoogleBot a un sitio web es limitada. Es acá que va a nacer el concepto de crawl budget, que su traducción del inglés es presupuesto de rastreo.
Si el crawler Googe no consigue leer una página, no será posible conocer su existencia o contenido. Por lo que este no se podrá incorporar a su índice. Y eso va a significar que no se va a mostrar en las páginas de resultado de los buscadores y tampoco va a participar en el ranking de las posiciones.
Por lo que, el crawling va a tener importancia en el posicionamiento orgánico de los buscadores. Debido a que es el primer paso para que Google pueda conseguir una página para analizarla y luego incluirla en su índice.
¿Existen factores que puedan afectar negativamente al crawl budget?
Sí, estos serán todos los problemas o limitaciones que harán que gaste más tiempo y recursos el bot de Google. Estos pueden ser:
- Mucho tiempo de respuesta del servidor
- La velocidad de carga de los recursos es excesiva
- Hay errores de código 4xx o 5xx
- Existen páginas que están aisladas o tienen un acceso difícil
- También hay distintos factores que van a determinar el presupuesto de rastreo, como la autoridad del sitio web.
Crawl budget, ¿qué es?
Los crawlers van a ser los distintos rastreadores que usa Google para poder encontrar y analizar las páginas que hay en la red. Con el objetivo final de asignarles una posición luego de las búsquedas de los usuarios.
Cada uno de los crawlers se va a centrar en un tipo de información distinta. El crawl budget es uno de los crawlers o rastreadores que tienen la función de asignar el tiempo que Google va a destinar para analizar cada web.
En qué se basa el crawl budget
Hay que tener en cuenta que Google no va a pasar el mismo tiempo rastrando las distintas páginas que existen, sino que se le va a asignar un poco de tiempo de crawl budget en base a distintos factores. Entre ellos se encuentran:
- Autoridad que tenga la página
- La calidad y la frecuencia que tenga la actualización de los contenidos
- Acceso
- Estructura
- La velocidad que tiene la carga
- La fluidez de la navegación
- Ausencia de los errores
¿Qué tan importante es el crawl budget SEO?
Por supuesto que lo es. Debido a que Google no va asignar un crawl budget a cada uno de los enlaces de la web. Es posible que los rastreadores no visiten a algunos de ellos con la frecuencia que se debería.
¿Cuáles consecuencias hay para una web o blog que tenga asignado menos tiempo de crawl budget? Esto sin duda, es mala noticia. Debido a que es muy probable que se consiga menos tráfico orgánico, esto debido a que no está posicionada como deberían de estar algunas palabras claves que serán necesarias para que los usuarios puedan encontrar el contenido que estaban buscando en la web.