Los buscadores siempre quieren indexar toda la información posible(gracias a Dios) es por ello que cuando llegan a un sitio web intentan rastrear todo lo que pueden con el crawl budget disponible.

El problema lo tenemos cuando no queremos que se indexe en ciertas páginas.

Tenemos varias opciones para ello:

  • Usar una etiqueta meta robots
  • O usar el robots.txt para controlar todos los contenidos.

Que es el archivo robots.txt

Las arañas y robots son usados por los buscadores para rastrear la información en las webs.

Cuando llegan a un sitio web lo primero que hacen es buscar el archivo robots.txt y a través de este sabrán a qué sitios pueden acceder o no de la página.

Es una manera ideal de evitar que los robots rastreen páginas que no queremos. Además de eso podremos optimizar el crawl budget de nuestra web.

Cómo generar el archivo robots.txt

El archivo robots.txt no es obligatorio. Es de uso opcional pero recomendable para quien quiera bloquear los robots.

El archivo robots.txt debe estar ubicado en la raíz del dominio.

Existen muchas herramientas con las que podemos generar el robots.txt automáticamente, ésta te puede servir.

Sirve para tener lo básico y luego ya podemos modificarlo como cualquier fich4ero de texto.

En el caso de WordPress ya se crea por defecto con los valores preesta023blecidos.

Si queremos modificarlo tan sólo tenemos que navegar por FTP hasta la raíz del dominio e introducir allí los directorios que no queremos que los robots rastreen.

Un ejemplo muy básico sería el siguiente:

User-agent:*

Disallow: /wp-admin/

Con esto le estamos diciendo a los robots que no queremos que rastreen la zona de lo veo y administración de WordPress.

Esta información está al alcance de cualquiera ya que escribiendo en el navegador el dominio seguido de robot. Txt cualquiera podrá ver lo que estamos haciendo en ese fichero.

Comandos principales para configurar el robots.txt.

Existe un protocolo llamado robots exclusion protocol en el cual se indican todos los comandos que podemos usar.

Cosas que debes tener en cuenta antes de modificar el robots.txt

  • Usando la almohadilla(#) por delante de la línea de texto haremos que sea un comentario.
  • El fichero es sensitive, es decir hay que respetar las mayúsculas y las minúsculas.
  • Cada grupo de User-Agent Para disallow debe estar separado por una línea en blanco

Los comandos más importantes son:

  • User-agent: aquí le indicamos que tipo de robot debe cumplir las directivas que vendrán a continuación.
  • Disallow: no permite el acceso a una página o directorio concretos.
  • Allow: tiene un funcionamiento contrario a la directiva de disallow permite el acceso a páginas y directorios. Si lo usamos justo después de la línea de disallow esto hará que se sobreescriba la directiva y permita el acceso a dichas URLs de la página.
  • Crawl-delay: esto permite configurar el número de segundos que deberá esperar el robot entre página y página. Es una buena opción si tenemos un servidor que va justito de recursos.
  • Sitemap: es una buena práctica indicar en el robot. Txt dónde se encuentra el sitemap del sitio web.

Cómo usar los asteriscos y el dólar en el robots.txt

Asterisco(*): sirve para indicar que todas las URLs que pertenecen a un directorio serán privadas.

Imaginemos que tenemos dos directorios llamados /SEO/ y /SEOmedia/.

Si queremos limitar el acceso a estos dos directorios con una sola línea solo tendremos que escribir /seo*/.

De este modo el robot no podrá acceder a directorios que contengan primeramente la palabra SEO.

Dólar($): podemos usar el dólar para indicar qué tipos de ficheros no queremos que se rastreen.

Por ejemplo /*.asp$.

En este caso el robot no rastrear y en ningún fichero que tuviera la extensión asp.

Comandos más usados en el Robots.txt

  • Permitir la entrada al robot de Google: User-Agent: Googlebot
  • Permitir el acceso a todos los robots: User-Agent:*
  • Denegar acceso a un directorio: Disallow /url/
  • Denegar acceso a todo el sitio web: Disallow /
  • Denegar acceso a directorios que empiezan por una palabra /palabra*/
  • Indicar dónde está el sitemap: Sitemap: http://seorocket.es/sitemap.xml
  • Denegar acceso a ficheros /*.asp$

Errores típicos de CSS y JS que se cometen en el Robots.txt

Puede ocurrir que por error hagamos un disallow de un directorio donde se encuentren los css o algún JS que sea esencial para el funcionamiento de la web por lo que es recomendable hacer allow a todos estos recursos.

Con esta simple línea:

User-Agent: *
Allow: /*.js$
Allow: /*.css$

Decimos que para todos los robots permitimos el acceso a recursos de css y js en toda la página. De este modo Google o cualquier bot podrá ver la web tal como la vemos nosotros en la realidad.

Cómo validar el Robots.txt

Para ello vamos al Probador de Robots.txt de Search Console. Vamos a el de Seorocket a ver que encontramos.

Cómo puedes ver hay varias incidencias y es que me he olvidado de poner “Sitemap:” antes de las url.

Lo solucionamos y le decimos a Google que vuelva rastrear de nuevo, cuando lo actualice veremos como está solucionado el problema.

¿Sirve para desindexar el robots.txt?

Mi respuesta es claramente no. Porque muchas veces si el robot ha accedido antes a esa url vuelve a hacerlo asiduamente.

Y sino mirad esta conversacion en twitter.

 

Es por ello que para hacer desindexaciones os recomiendo este método que publiqué en mi canal de Youtube.

Aunque podéis ver aquí como como eliminar urls indexadas google de forma masiva.

De todos modos para controlar qué páginas se indexan y para decirle al robot que debe eliminar esa url la siguiente vez que pase por ahí lo mejor es usar el meta robots.