El Crawl Budget es un concepto aparentemente sencillo que según John Mueller de Google: «es uno de esos mitos que se oyen mucho sobre todo los SEO y webmasters acerca de cómo definen y entienden el rastreo por parte de los robots de Google. En Google no tenemos esa noción de Crawl Budget de la que la gente habla».
Añade también que la gran mayoría de las webs no tienen que preocuparse por el Crawl Budget. Solo esas páginas que generan un número infinito de páginas deberían considerar cómo sus servidores pueden lidiar con la carga. Una página de un tamaño razonable no debería ocultar enlaces internos, añadir etiquetas noindex o enredar con las direcciones canonical. Solo webs con bastantes miles de páginas o que generen un exceso de ellas deben considerarlo. Pero la mayoría no necesitan ni siquiera pensar en eso.
Quizá por eso Google ha publicado una entrada explicando de forma concisa lo que es el Crawl Budget. Básicamente es la tasa de rastreo y la demanda de rastreo juntas (crawl rate and crawl demand together).
«Considerando a la vez crawl rate y crawl demand definimos el crawl budget como el número de URLs que Googlebot puede y quiere rastrear»
Crawl rate limit define cuánto quiere Googlebot rastrear tus páginas para no sobrecargar el servidor y perjudicarlo. Es «el número de conexiones paralelas que Googlebot puede usar para rastrear tu sitio, así como el tiempo de espera entre peticiones». Google no rastreará tanto como para tirar tu servidor y respetará el límite que pongas en la consola de búsqueda.
Crawl demand es la demanda de Google para rastrear tus páginas, nuevas y viejas. La demanda se determina por la popularidad de tu sitio y tus URLs, y la necesidad de Google de prevenir que el contenido quede obsoleto en su index. Esto significa que aunque tengas tasa de rastreo por gastar, si la demanda no requiere más rastreo, Googlebot no seguirá rastreando.
Junta ambos conceptos y tienes el Crawl Budget, o lo que es lo mismo, lo que Google rastreará tu página.
Qué afecta negativamente al Crawl Budget
El Crawl Budget se ve afectado negativamente por los siguientes motivos:
- Navegación con filtros e identificadores de sesión
- Contenido duplicado dentro de la página
- Soft errors
- Páginas hackeadas
- Espacios infinitos y proxies
- Contenido de baja calidad y spam
La tasa de rastreo (Crawl Rate) no es un factor del ranking. Una tasa de rastreo elevada no significa necesariamente mejores posiciones en los resultados. Google usa cientos de factores en sus rankings, y mientras el rastreo es necesario para aparecer, no es un factor.
Con esto parecen despejadas las dudas y mitos alrededor de este tema. Pero como punto de partida, si ves en la consola de búsqueda de Google un descenso en el rastreo (en general), considera que algo puede estar fallando.