10 Hacks para mejorar el Crawl Budget que deberías conocer

hacks-para-mejorar-el-crawl-budget

¡Ey lector! ¿Cómo lo llevas?

Hoy vengo a hablarte de un tema poco conocido pero no menos importante: el Crawl Budget.

Debes saber que Google no indexa todas las páginas de un sitio web de golpe, el proceso puede tardar varias semanas. ¿Y qué te parecería hacerle las cosas más fáciles a Google para que indexe más páginas y tarde menos tiempo?

Si quieres saber todos los detalles píllate una birra, un gin o un café y prepárate para leer el post más completo acerca del Crawl Budget que vayas encontrar en el seo hispano.

¿Qué es el Crawl Budget?

El crawl budget es número de páginas que Google rastreará por día en tu página web. Este número suele ser estable para cada página web pero ese número digamos que es tu budget o “presupuesto” diario, casi siempre viene determinado por lo organizada que esté y los enlaces entrantes que tenga tu web.

La araña podría recorrer tanto 6 páginas al día como 20 o 1000, por lo tanto es necesario saber que crawl budget tenemos asignado a nuestra web para saber si podemos optimizarlo más para que nuestros contenidos se indexen rápido.

Qué es un crawler

Las arañas o crawlers son programas de software que exploran conjuntos de páginas web, siguen los enlaces que contienen y exploran las páginas a donde dirigen y así sucesivamente hasta indexar millones de páginas almacenadas en miles de máquinas.

Este video con la explicación de Matt Cutts me encanta.

Cómo funciona un Crawler

Antes de nada deberíamos saber como funciona un crawler como GoogleBot.

  1. Lo primero que va hacer es revisar tu robots.txt para ver si sigue teniendo acceso permitido a tu página.
  2. Lo siguiente será obtener una lista de URLS y rastrearlas.
  3. Parseará el contenido de cada página.
  4. Envía el contenido a las máquinas donde se puntuará para su posterior ranking en el índice de Google.
Nota: El parseo analiza las etiquetas de un documento y recupera la información. Google necesita incorporar estos documentos a su base de datos para evaluarlos y otorgarles una puntuación en su índice.

Puedes leer más sobre el funcionamiento de GoogleBot aquí.

Cómo saber cuál es nuestro Crawl budget actual

Para saber que Crawl Budget nos ha asignado Google lo único que tenemos que hacer es ir a Webmastertools(Search console):

  • Entrar en Rastreo
  • Entrar en Estadísticas de rastreo

Aquí va mi Budget para seorocket.es:

estadisticas-de-rastreo

Cómo puedes ver en rastreo por días se puede apreciar como tengo una media de 50 páginas rastreadas por día, para mi blog está estupendo porque saco muy pocos post al mes entonces está claro que la cantidad de páginas rastreadas por día es más que suficiente a primera vista.

Es curioso que cuanta más transcedencia tiene el blog más aumenta esta cantidad como se puede apreciar en el último tramo donde sube de 100.

Esto se debe efectivamente a más enlaces entrantes hacia el blog con menciones, las arañas llegan a mí desde otras webs. Desde que empecé a editar este post mi presupuesto de rastreo ha crecido hasta 65.

¿Qué ocurre si tengo un Crawl budget bajo?

Imagínate que tienes una web con 20.000 páginas siendo exagerado y el Crawl Budget diario es de 50 páginas.

Tardaría más de 1 año en recorrer todas las páginas porque a 50 x 365 = 18.250. Con lo cuál, en este caso tendríamos que hacer optimizaciones para que este rastreo fuera más efectivo sino todos nuestros esfuerzos se verían truncados con muchas páginas sin indexar.

Cómo optimizar el Crawl Budget paso a paso

Cómo dijo un día Rand Fishkin, en tu página todo usuario debería llegar a todo el contenido en 3 clics, si lo piensas es una buena norma para hacer la vida más fácil a nuestras queridas arañitas.

A continuación te explico varias formas de mejorar el crawl budget de tus sitios haciendo que GoogleBot no pierda tiempo en páginas que no tienen ningún valor y centre toda su atención en lo importante.

1. Optmizando el Robot.txt

¿Has pensado alguna vez para que sirve el robot.txt? Este fichero sirve para decirle a GoogleBot donde debe y no debe gastar Crawl Budget. Si hay zonas de tu web que no deben ser rastreadas deberán indicarse aquí.

Cuánto menos tiempo le hagamos gastar a GoogleBot en secciones innecesarias mejor funcionará la indexación de nuestro sitioy llegará un momento en que con cada publicación indexaremos más rápido nuestros contenidos y podremos rankear antes.

Las dos mejores líneas que puedes tener en tu robot.txt

Disallow: /*?*
Disallow: /*?

¿Qué hacen estas líneas?

Estas líneas evitan que se indexen resultados de nuestras páginas donde se incluyen búsquedas o otros tipos de basura que no queremos tener en el índice de Google.

Más lineas importantes:

User Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/


Disallow: /wp-content/themes/


Disallow: /wp-includes/


Disallow: /wp-admin/

 

Desindexar cosas que empiezan por wp-
Disallow: /wp-
No permitimos indexar búsquedas
Disallow: /?s=
Disallow: /search

Tampoco permitimos estas lineas:

Disallow: /feed


Disallow: /comments/feed


Disallow: /*/feed/$


Disallow: /*/feed/rss/$


Disallow: /*/trackback/$


Disallow: /*/*/feed/$


Disallow: /*/*/feed/rss/$


Disallow: /*/*/trackback/$


Disallow: /*/*/*/feed/$


Disallow: /*/*/*/feed/rss/$


Disallow: /*/*/*/trackback/$

El robots.txt es idóneo para no permitir acceder a ciertos ficheros o carpetas en tu servidor.
Incluir el sitemap en el robot.txt

Una cosa importante y que nadie hace es poner el sitemap en el robot.txt, le facilitamos mucho la tarea indicandole ahí nuestros posts y páginas más importantes.

Yo lo tengo así:

sitemap-en-el-robot-txt

Cómo editar el robots txt

Si tienes WordPress y no quieres complicarte con Yoast Seo puedes hacerlo muy fácil a través de Herramientas>>Editor de archivos.

modificar-robots-txt

Sino en la raíz de tu web ya debería estar creado. Es un simple txt, puedes ver el mío aquí.

2. Usar la etiqueta META ROBOTS

Esta etiqueta podemos usarla a nivel individual en cada página de nuestro sitio:

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

Podemos usarlo para decirle que no indexe la página pero que puede seguir rastreando si hay enlaces en este contenido.

Y aquí viene la gracia.

Si solo usamos un disallow en robots.txt puede que la página se indexe aunque no permitamos el crawleo ¡Sí es de locos! Pero puede aparecer en el buscador si buscamos nuestro dominio con el operador “site:”. Por lo tanto para que eso no ocurra además debemos usar el meta name robots haciendo que no indexe la página.

Recuerda que esta etiqueta se debe poner en dentro del <head></head> de cada página, si usas wordpress con Yoast o similar ya tiene una opción de configuración en cada post/página.

3. Usar URL canónicas

Esta opción está bien para indicar al buscador que una página pertenece a otra y además para pasar el link juice. Se usa mucho por ejemplo para una categoria de una tienda donde dentro tenemos varios productos. No queremos dividir la fuerza de esa categoría en los productos, variedades de color,etc….

Imaginemos que tenemos la categoria “zapatos de hombre”. Dentro tenemos muchos zapatos, digamos 100 zapatos distintos.

Lo primero que nos va pasar si los dejamos indexar es que se producirá una canibalización de palabras claves brutal.

La categoría y esos 100 productos competirán seguramente por la keyword zapatos de hombre. Además de eso consumiremos mucho más presupuesto diario para rastrear todas estas urls.

La solución en principio parece fácil, usar el META ROBOTS en cada página para indicar que no indexe todos esos productos y además usar un canonical para indicar que esas páginas son parte de la categoría. De esta forma la categoría cogerá toda la fuerza proveniente de sus productos.

¡Ojo! Si usamos el robots.txt para no permitir el rastreo a los productos el buscador no podrá ver el canonical de vuelta hacia la categoría.

Por lo tanto debemos hacer un canonical indexando o sin indexar, esas son las opciones. Si lo dejamos sin indexar debemos dejar el follow en el META ROBOTS.

4. Crear contenido nuevo(Freshness)

El contenido que es rastreado más a menudo suele recibir más tráfico. Recordad que un buen truco para ganar tráfico y subir posiciones es actualizar la fecha de los artículos e incluirle más información útil.
La autoridad del sitio determina también la frecuencia de los rastreos, pero esto tiene menor importancia si el sitio web se actualiza constantemente.
A continuación te muestro una web de unas 200.000 visitas mensuales, muy actualizada y con una autoridad relativamente alta. La página tiene 150 artículos y rankea muy bien.
pagina-de-200k-visitas-crawl-budget
Hagamos una regla de tres sencilla comparando esta web con mi blog:
150 entradas – 1658 páginas rastreadas
24 entradas  –  x páginas rastreadas
x = 265
Cómo puedes ver el ejemplo de 24 entradas es para SeoRocket pero realmente el Crawl Budget que tengo es de 50 y no de 265. No existe concordancia alguna y es por muchos motivos pero la autoridad y el freshness juegan un papel crucial.

 

Crawl Rank

Por lo tanto tener el Crawl Budget optmizado te ayudará a que puedas cambiar tus rankings más rápido al actualizar continuamente contenido y a su vez esta frescura de contenidos ayudará a aumentar el Crawl Budget. Cómo ves es todo una pescadilla que se muerde la cola.

 

Además parece que Google asigna un Crawl Budget de inicio a la página web por su autoridad y luego determina una puntuación denominada Crawl Rank. Si una página es visitada pocas veces tendrá una puntuación menor de Crawl Rank.
Si tus páginas son rastreadas con más frecuencia que las de la competencia conseguirás atraer más tráfico hacia ellas. Tiene toda la lógica del mundo, si Google pasa muchas veces por un contenido y va captando mejoras en él irá aupandolo en las SERPS. Si solo pasa una vez, solo recibirá una clasificación esa vez.
¡Ojo! Esto no significa que vayas a mejorar en las SERPS solo por que tu web sea rastreada más a menudo. Así lo confirmó John Mueller vía twitter:

 

 

6. Adiós paginación, Hola scroll infinito

Una forma de que el contenido sea indexado de manera más fácil es que esté muy cercano a la home y ya no te cuento si es posible que todo tu contenido se cargue en la home. Y ahora dirás Miguel estás loco…

¡Para para para! Sabes de sobra que soy desarrollador web también y eso así sin más explicación sería una locura para los tiempos de carga de la página. Pero gracias a los desarrollos actuales es posible que la página vaya haciendo peticiones a medida que el usuario hace scroll en la web mostrando así más entradas.

Tal y como evolucionan los tiempos la navegación móvil se está convirtiendo en clara mayoría, en mis mejores páginas con mucho tráfico ya es más de un 60% y tengo que optimizarlas para móvil y pensar en como se ve para saber donde clicarán.

Y es por eso que se está extendiendo lo del scroll infinito, porque el uso desde móvil es bajar bajar y bajar 🙂

Y como siempre en casa de herrero cuchillo de palo, este blog no está optimizado para esto. Es responsive pero esta parte no está a la orden del día.

Consigue que todo el contenido esté muy cercano a la home. El scroll infinito puede facilitar esa tarea creando enlaces a todos los artículos desde la zona más importante de la web.

Si quieres saber más, esto es lo que recomienda Google para un infinite scroll correcto.

 

7. Eliminar el contenido inútil

Esta técnica puede ser la revolución en SEO a partir de ahora. Cada vez se crean más y más páginas, ¿crees que Google va indexar toda esa cantidad de contenidos inútiles? Yo creo que intentarán evitar indexar basura y de hecho ya lo hacen.

¿Alguna vez has usado técnicas blackhat de creación de post en muchas plataformas para enlazar a tus proyectos? Puede que hubiera alguna época donde ese pobre linkbuilding funcionó pero dejó de hacerlo cuando indexar esos posts resultaba casi imposible. Y es que Google ha empezado a limitar todo esto.

Si encuentran una página con contenido obsoleto, irrelevante o que no consigue “engagement” estás muerto. Empezará a producirse la siguiente cascada de acontecimientos:

  1. Descenso del presupuesto de rastreo(crawl budget).
  2. Menos páginas indexadas
  3. Descenso del tráfico orgánico
Consejo para desindexar: no metas la url a desindexar con disallow en el robots.txt porque entonces Google no podrá leer el Meta robots con el no index. La próxima vez que el robot pase y vea el Meta robots con NO INDEX borrará esa url del índice.

8. Enlaces

Si el robot de Google o cualquier otro encuentra continuamente errores en tus enlaces va estar gastando presupuesto de rastreo innecesariamente.

Enlaces rotos

Muy importante no tener enlaces rotos en tu página web, ya no solo porque los crawlers no podrán hacer una navegación efectiva sino porque también perjudica la experiencia del usuario. Es importante hacer una comprobación de vez en cuando con herramientas como la Search Console de Google o Screamingfrog.

Enlaces internos

Los enlaces internos sirven para pasar link juice y relevancia para palabras claves pero además permitiendo navegar a los usuarios y a los robots. Debes aprovechar cada oportunidad para enlazar tus propios contenidos con palabras claves relevantes usadas de forma natural.

Si tenemos un buen enlazamiento interno mejoraremos el rastreo de nuestra página considerablemente.

Rel=”nofollow” en enlaces internos

Una buena práctica es indicar al robot por donde no debe seguir dentro de nuestra web, por ejemplo enlaces hacía contacto, políticas de privacidad,etc…que no aportan nada y que además deberían estar en NO INDEX. Así haremos que solo visite las urls realmente importantes.

Enlaces recibidos

Los enlaces externos, además de ayudarte a posicionar también van ayudar a los crawlers a llegar a más páginas a través de otros blogs.

Enlaces hacia otras páginas y la duda del rel=”nofollow”

Una duda recurrente es, con respecto al consumo de rastreo ¿debemos poner “nofollow” los enlaces hacía páginas externas? ¿Si el bot encuentra un enlace en nuestra página consumirá más crawl budget?

La respuesta es NO. Google tendrá en cuenta ese enlace para visitarlo pero antes de nada gastará todo el Crawl Budget disponible para tu web y una vez finalizado el rastreo accederá a las nuevas urls externas encontradas.

9. Velocidad de carga

Algo fundamental es la velocidad de carga de nuestro sitio web, para los que usamos algún CMS es una lucha continúa. Si creas páginas muy simples con html no tendrás este problema. Haz el test de velocidad desde Pingdom o desde la propia herramienta de Google PageSpeed Insights.

En mi blog tengo que mejorar el tema de las imágenes en portada que no caduque tan pronto la caché, el resto es aceptable. Aunque podría mejorarlo hasta llegar al Grado A.

test-velocidad

Si tienes WordPress te recomiendo usar:

Con estos plugins mejorarás considerablemente, pero lo más importante es tener un tema lo más limpio posible.

10. Parámetros de URL

Los parámetros en las urls son la mayor causa de gasto del Crawl budget sobretodo en ecommerce. Aquí no voy entrar en como hacerlo porque se extendería hasta el infinito este post pero recuerda revisar en el Search Console estos parámetros para indicar a Google como debe manejarlos. Antes de tocar nada aquí te recomiendo que sepas exactamente como funciona esta herramienta porque puedes hacer que deje de rastrear partes importantes de tu web.

Además estos parámetros generan contenido duplicado a mansalva al ser una url distinta con un mismo contenido por lo que es importante tenerlo bien optimizado.

 

Cómo bien sabes me encanta experimentar, me gusta probar y luego hablar. No al revés 🙂 He estado puliendo algunos puntos de los que hablo en este post y desde que comencé a escribirlo hasta el día en que lo publico mi Crawl budget ha mejorado considerablemente.

Creo que los puntos más importantes que me han ayudado a mí han sido los enlaces externos recibidos y una mejora del enlazamiento interno. Aquí te dejo la imagen de mi presupuesto de rastreo actual.

 

estadisticas-de-rastro-google

 

Como se puede apreciar, empezamos con un Crawl Budget diario de 50 páginas por día y ya estoy en 74 páginas por día. Y eso que este blog tiene pocas urls, si esto lo aplicas en un blog enorme mejorarás la indexación y sobretodo tus los rankings y el tráfico que recibes desde ya.

Te espero en los comentarios ¿Se te ocurren otras maneras para mejorar nuestro presupuesto de rastreo diario?

 

¿Te ha gustado?
¿Quieres recibir todos mis experimentos y trucos sobre SEO y Marketing Online directamente en tu mail?

Recibirás trucos, links, videos y técnicas extras a tu correo.

26 Comments
  1. noviembre 3, 2016
    • noviembre 4, 2016
  2. noviembre 3, 2016
    • noviembre 3, 2016
  3. noviembre 3, 2016
    • noviembre 3, 2016
      • noviembre 4, 2016
        • noviembre 4, 2016
  4. noviembre 4, 2016
    • noviembre 4, 2016
  5. diciembre 21, 2016
    • diciembre 21, 2016
  6. diciembre 24, 2016
    • diciembre 24, 2016
      • diciembre 28, 2016
  7. enero 6, 2017
    • enero 7, 2017
  8. febrero 2, 2017
  9. mayo 13, 2017
    • mayo 13, 2017
      • mayo 13, 2017
  10. mayo 13, 2017
  11. julio 31, 2017
    • agosto 16, 2017
  12. agosto 22, 2017

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *