Robots.txt y la meta etiqueta Robots

Unancor
Votar

Si quieres controlar qué robots acceden a tu web y a qué partes pueden hacerlo o no, necesitarás utilizar determinadas técnicas que te permitirán controlar los accesos a tu sitio web.

Conociendo el robots.txt

El archivo robots.txt es un archivo de texto que da unas recomendaciones a los robots y crawlers (rastreadores) acerca de cómo deben tratar una web o una parte de la misma.

Debe estar en la raíz del sitio. De no estar ahí, no funcionará. Por ejemplo: www.dominio.com/robots.txt

Entre los usos más comunes del archivo robots.txt están:

  • Bloquear el acceso de ciertos robots: existen un montón de robots que no nos ayudan para nada. Mucho spam al que podemos bloquear el acceso mediante una simple línea en el robots.txt. De igual forma, te puede interesar bloquear el acceso a robots de herramientas de marketing online (como ahrefs) para impedir que la competencia te siga los pasos y pueda rastrear los enlaces de tu web. Importante: repetir esto último puede ser un patrón sospechoso para Google en caso de que tu web forme parte de una PBN o granja de intercambio de enlaces.
  • Evitar una cantidad de peticiones desproporcionada: si controlas la parte del servidor de tu web podrás hacerlo tú mismo, sino, puedes preguntar qué robots son los que más peticiones hacen al servidor y decidir entonces si te merece la pena bloquear su acceso o no.
  • Bloquear determinadas zonas de la web: puede que algunas zonas de tu web no deban ser indexadas por los robots de los buscadores (como puede ser una zona privada o listas de pacientes de un hospital por ejemplo). Si no le indicamos explícitamente en el robots qué partes de la web no debe indexar, los robots tirarán para adelante (como los de Alicante) e indexarán todo lo que encuentren a su paso. OJO, no indiques en el robots.txt carpetas con información sensible: estarás dando pistas precisamente de dónde se encuentran esos directorios.
  • Controlar el contenido duplicado: si impides el acceso a páginas que estén duplicando contenido mejoraremos el posicionamiento de nuestra web.
  • Indicar dónde está el sitemap de la web: en el archivo robots.txt podemos indicar la ruta en la que se encuentra el sitemap.xml de nuestra página web. De esta manera es más fácil informar a Google de la estructura de la web al enviarlo en Search Console.

Si empiezas a echar un vistazo a los robots.txt de las webs que visitas, te encontrarás con muchos que son exactamente iguales:

User-agent: *
Disallow:

En User-agent debemos indicar el nombre del bot que queremos que nos atienda y mediante el Disallow estaremos indicando qué partes de la web queremos bloquear a los bots.

También puede que te encuentres con algún “Allow”, aunque es preferible evitarlo porque algunos bots no lo saben interpretar. De hecho, por defecto los robots van a indexar todo lo que puedan hasta que se encuentren con un Disallow, pero como hemos dicho antes, robots.txt tan solo es una recomendación: pueden tenerlo en cuenta o no.

Por lo tanto, en el ejemplo de arriba estamos indicando que todos los robots pueden acceder a toda nuestra web y sus directorios.

Pero, desgraciadamente el robots.txt no está en posesión de la verdad absoluta, ya que en el caso de que otra web nos esté enlazando, puede hacer que Google indexe nuestra página, aunque la mostrará en los resultados de búsqueda sin título ni meta descripción.

La etiqueta robots

Estas etiquetas tienen que implementarse dentro del <head> de cada página.

Tiene dos partes: “index o no index” y “follow o nofollow”.

Con Index le estaremos indicando a los bots si queremos o no que esta página en cuestión se indexe y con la etiqueta follow le indicaremos si queremos que los enlaces de esta página se tengan en cuenta o no (si los siguen e indexan).

Ejemplo:

<meta name="robots" content="noindex,follow"/>

Esta combinación indica que Google no debe indexar la página, pero SÍ rastrea los enlaces de la misma para traspasarles la autoridad de la página e indexarlos.

Podemos incluir otros valores como noodp (para evitar que indexe la descripción del directorio Moz) y noydir (lo mismo pero con el de Yahoo).

Y no olvides que esta etiqueta tiene que ir en el <head> de tu página con el resto de metas.

En ausencia de la etiqueta robots, los buscadores entenderán que se trata de un index, follow.

En este artículo sobre  la meta etiqueta robots puedes ampliar más información sobre sus usos.

Recomendaciones de Google

Hace tiempo Google cambió la forma en la que debemos configurar el archivo robots.txt, al entender que su bot debe poder rastrear y renderizar una web tal como lo hace un usuario.

Así pues, ahora hay que desbloquear el acceso a todos los archivos CSS y JS que sean necesarios para visualizar correctamente cada página.

¿Y cómo saber cuáles son esos archivos? Muy fácil, en Search Console hay varias opciones:

  • Cuando envías una URL nueva con la opción “Explorar como Google”, al hacer clic en el resultado procesado te indicará qué recursos están bloqueados.
  • En Search Console, en “Recursos bloqueados” dentro del menú “Índice de Google”. Te indicará las páginas con recursos bloqueados, así como la ruta de los archivos.
  • En rastreo > Probador de robots.txt. Indica la URL que quieras probar y la aplicación te dirá si robots.txt impide el acceso a alguno de ellos.

A medida que instales plugins en tu WordPress, recuerda desbloquear también el acceso a los nuevos archivos CSS y JavaScript que Google necesite para renderizar correctamente cada página.

Archivo robots.txt para WordPress

Para facilitarte el trabajo, esta es la configuración básica del archivo robots.txt para WordPress:

User-agent:*
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-
Disallow: *?replytocom
Disallow: /?s=
Disallow: */feed$
Disallow: */feed/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Sitemap: http://direccion-del-sitemap.xml

Importante: con asterisco (* = lo que sea) indicamos el bloqueo de cualquier url antes de llega al directorio. Con el símbolo del dólar ($ = hasta aquí) indicamos dónde acaba la dirección. Esto es importante para bloquear el acceso a URL sin / final, o cuando acaba en documento (.html, .php etc.).

Los parámetros ?s= y ?replytocom se pueden bloquear desde el gestor de parámetros de Seach Console (Rastreo > Parámetros de URL), pero si eres tan maniático como nosotros, te recomendamos incluirlos en el robots.txt para evitar que se indexen de primeras.

Los feeds son un verdadero quebradero de cabeza, ya que Google los indexa por defecto ensuciando la SERP, generando contenido duplicado y mareando al usuario. Por eso, si usas feedburner para optimizar el que viene por defecto en WordPress, recuerda impedir su indexación en las opciones de Publicize, y si usas Yoast SEO, oculta los feeds en la cabecera para que los robots no los rastreen.

¿Y tú, ya has empezado a trastear con los robots? ¿conoces algún otro truco para optimizarlo? Déjalo en los comentarios y debatimos 😉

/ins>

SUSCRÍBETE

Si te suscribes, aceptas la Política de privacidad.

Escrito por

Artículos relacionados

2 Comentarios

  1. Samuel Soler
    26 enero, 2016
    • SEOH1
      28 enero, 2016

Comenta el artículo