Cómo utilizar un archivo robots.txt

Escrito por:
Categorías: Marketing Digital
No hay comentarios

Robots.txt es un archivo de texto con un formato específico que permite a un webmaster controlar qué áreas de su sitio web se autorizó rastrear. Este archivo de texto estará disponible a un URL específico para un determinado lugar, por ejemplo http://www.exampe.com/robots.txt

¿Necesito un robots.txt para mi sitio?

No es obligatorio que un sitio web tenga un archivo robots.txt. Si no la hay, se analizarán todas las URL que el robot pueda encontrar.

Ya sea que necesite un archivo robots.txt en su sitio, hágase esta simple pregunta: ¿hay un área no segura en su sitio que no quiere ver en los resultados de búsqueda como Google, Yahoo, Bing? si la respuesta es sí, entonces usted necesita un robots.txt. De lo contrario, no es útil.

Cómo utilizar un archivo robots-txt

Cómo utilizar un archivo robots-txt

¿Cómo crear un archivo robots.txt?

Para crear un archivo robots.txt, lo mejor es utilizar un simple procesador de textos como Blocnote, TextEdit o Bloc de notas.
La estructura de archivos es muy simple: se compone de varios ” bloques “de las instrucciones, cada uno de los cuales especifica dos parámetros:

User-agent: Referencia de la araña
Disallow: el archivo (o directorio) que no debe ser visto desde la exploración.
Los artículos “Disallow” pueden ser más de una para cada bloque.
Veamos un ejemplo que hará que sea más fácil de entender:

User-agent: Googlebot
Disallow: / archivos-de-musica.html
Disallow: / directorio-excluido /

Es fácil ver que estas directivas deberán informar a la araña “Googlebot” no tener en cuenta el archivo y el directorio indicado.

Cómo utilizar el archivo robots.txt para SEO: Mejores Prácticas

Vamos a explorar algunas “buenas prácticas” para el SEO en el archivo robots.txt.

1) El archivo robots.txt no debe utilizarse para la gestión de contenido duplicado: hay mejores técnicas y más eficiente.

2) Las instrucciones para ” Disallow” son importantes, no meras sugerencias. Por esta razón, se debe utilizar con prudencia y no a la ligera.

3) Las direcciones URL bloqueados por robots.txt no garantizan que estos resultados no van a aparecer en las páginas de búsqueda de Google.

4) La introducción de una regla de ” Disallow “, no va a eliminar el contenido indexado, pero usted tiene arañas que no tiene acceso. Si desea implementar una eliminación, es necesario utilizar la herramienta especial proporcionada por Google Webmaster Tools.

5) Si dentro del robots.txt, una araña se especifica (por ejemplo, el robot de Google), todas las instrucciones anteriores serán ignorados y sólo aquellos serán consideradas después de la definición.

En el ejemplo siguiente, de hecho, indica un bloqueo total contra todas las arañas, excepto Googlebot:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: / cgi-bin /

6) Es bueno tener mucho cuidado cuando se establece el “Disallow” en todo un directorio. Recordemos que el bloque se aplica a la carpeta especificada, sino también para los subdirectorios y los archivos que contienen.

7) Bloquee los enlaces entrantes (el error más peligroso en el manejo de robots.txt por personas no expertas): si una URL es bloqueada por robots.txt, pero una página (interno o externo al dominio) contiene un enlace a esa URL, se creará una situación ambigua que podría generar resultados sin título y sin recortes en los SERPs, este tipo de resultado se convierte en una especie de “resultado borrado” en la búsqueda orgánica, generando una mala experiencia para los usuarios.

¿Y tú que opinas?

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies