Cómo utilizar Robots.txt para permitir o no permitir todo

A primera vista, el archivo robots.txt puede parecer algo reservado sólo para los más expertos en texto de entre nosotros. Pero en realidad, aprender a utilizar un archivo robots.txt es algo que cualquiera puede y debe dominar.

Y si está interesado en tener un control preciso sobre qué áreas de su sitio web permiten el acceso a los robots de los motores de búsqueda (y cuáles puede mantener fuera de los límites), entonces este es el recurso que necesita.

En esta guía, vamos a repasar los aspectos básicos fundamentales, entre ellos

Qué es un archivo robots.txt
Cuándo utilizar el archivo robots.txt
Cómo crear un archivo robots.txt
Por qué y cómo implementar un archivo robots.txt «Disallow All» (o «Allow All»)

Índice de contenidos

¿Qué es un archivo robots.txt?

En términos sencillos, el archivo robots.txt es un archivo de texto especial ubicado en el dominio raíz de su sitio web y utilizado para comunicarse con los robots de los motores de búsqueda. El archivo de texto especifica a qué páginas web/carpetas dentro de un determinado sitio web se les permite acceder.

Es posible que desee bloquear URLs en robots.txt para evitar que los motores de búsqueda indexen páginas web específicas a las que no desea que accedan los usuarios online. Por ejemplo, un archivo robots.txt «Disallow» podría prohibir el acceso a páginas web que contengan ofertas especiales caducadas, productos no lanzados al mercado o contenido privado y exclusivo.

Cuando se trata de resolver problemas de contenido duplicado, u otros problemas similares, el uso del archivo robots.txt para no permitir el acceso también puede apoyar sus esfuerzos de SEO, señala Leovel.

¿Cómo funciona exactamente un archivo robots.txt? Cuando un robot de un motor de búsqueda comienza a rastrear su sitio web, primero comprueba si existe un archivo robots.txt. Si existe uno, el robot del motor de búsqueda puede «entender» cuáles son las páginas a las que no puede acceder, y sólo verá las páginas permitidas.

Cuándo utilizar un archivo Robots.txt

La razón principal para utilizar un archivo robots.txt es bloquear los motores de búsqueda (Google, Bing, etc.) para que no indexen páginas web o contenidos específicos.

Este tipo de archivos puede ser una opción ideal si desea

Gestionar el tráfico de rastreo (si te preocupa que tu servidor esté saturado)
Asegurar que ciertas partes de su sitio web se mantienen privadas (por ejemplo, las páginas de administración o las páginas «sandbox» que pertenecen al equipo de desarrollo)
Evitar problemas de indexación
Bloquear una URL
Evitar que el contenido duplicado se incluya en los resultados de búsqueda (y que tenga un impacto negativo en el SEO)
Impedir que los motores de búsqueda indexen determinados archivos, como los PDF o las imágenes
Eliminar los archivos multimedia de las SERP (páginas de resultados de los motores de búsqueda)
Publicar anuncios de pago o enlaces que requieran cumplir con requisitos específicos para los robots

Como puede ver, hay muchas razones para utilizar un archivo robots.txt. Sin embargo, si desea que los motores de búsqueda accedan e indexen su sitio web en su totalidad, entonces no es necesario un archivo robots.txt.

Cómo configurar un archivo Robots.txt

Compruebe si su sitio web ya cuenta con un archivo robots.txt.

En primer lugar, asegurémonos de que no existe un archivo robots.txt para su sitio web. En la barra de URL de su navegador web, añada «/robots.txt» al final de su nombre de dominio (así – www.example.com/robots.txt).

Si aparece una página en blanco, no tiene un archivo robots.txt. Pero si aparece un archivo con una lista de instrucciones, entonces hay uno.

Si está creando un nuevo archivo robots.txt, determine su objetivo general.

Una de las ventajas más significativas de los archivos robots.txt es que simplifican la autorización o denegación de varias páginas a la vez sin necesidad de acceder manualmente al código de cada una de ellas.

Hay tres opciones básicas para los archivos robots.txt, cada una con un resultado específico:

Permitir totalmente: Los robots de los motores de búsqueda tienen permiso para rastrear todo el contenido (tenga en cuenta que, dado que todas las URL están permitidas por defecto, una autorización completa suele ser innecesaria)
Rechazo total: Los robots de los motores de búsqueda no pueden rastrear ningún contenido (quiere bloquear el acceso de los rastreadores de Google a cualquier parte de su sitio)
Permiso condicional: El archivo establece reglas para el contenido bloqueado y que está abierto a los rastreadores (quiere desautorizar ciertas URLs, pero no todo su sitio web)

Una vez que identifiques el propósito que deseas, estarás listo para configurar el archivo.

Utilice un archivo robots.txt para bloquear las URL seleccionadas.

Al crear un archivo robots.txt, hay dos elementos clave con los que va a trabajar:

El user-agent es el robot específico del motor de búsqueda al que se aplica el bloqueo de la URL.
La línea disallow se refiere a la(s) URL(s) o archivos que desea bloquear del robot del motor de búsqueda.

Estas líneas incluyen una única entrada dentro del archivo robots.txt, lo que significa que un archivo robots.txt puede contener varias entradas.

Puede utilizar la línea de agente de usuario para nombrar un robot de motor de búsqueda específico (como Googlebot de Google), o puede utilizar un asterisco (*) para indicar que el bloqueo debe aplicarse a todos los motores de búsqueda: User-agent: *

A continuación, la línea disallow desglosará exactamente el acceso restringido. Una barra inclinada (Disallow: /) bloquea todo el sitio web. También puede utilizar una barra inclinada seguida de una página, imagen, tipo de archivo o directorio específico. Por ejemplo, Disallow: /directorio-malo/ bloqueará el directorio del sitio web y su contenido, mientras que Disallow: /secret.html bloquea una página web.

Si se juntan todos estos elementos, se puede obtener una entrada similar a la siguiente:

User-agent: *

Disallow: /directorio-malo/

Cada URL que desee permitir o desautorizar debe estar situada en su propia línea. Si incluye varias URL en una sola línea, puede tener problemas cuando los rastreadores no puedan separarlas.

Puedes encontrar una gran variedad de entradas de ejemplo en este recurso de Google si quieres ver otras posibles opciones.

Guarde el archivo robots.txt.

Una vez que haya terminado con sus entradas, deberá guardar el archivo correctamente.

A continuación te explicamos cómo hacerlo:

Cópielo en un archivo de texto o de bloc de notas y, a continuación, guárdelo como «robots.txt». Utilice sólo letras minúsculas.
Guarde el archivo en el directorio de mayor nivel de su sitio web. Asegúrese de que está colocado en el dominio raíz y de que su nombre coincide con «robots.txt».
Añada el archivo al directorio de nivel superior del código de su sitio web para que pueda ser rastreado e indexado fácilmente.
Confirme que su código sigue la estructura adecuada (User-agent -> Disallow/Allow -> Host -> Sitemap). De este modo, los robots de los motores de búsqueda accederán a las páginas en el orden correcto.

Tendrá que crear archivos separados para los distintos subdominios. Por ejemplo, «blog.dominio.com» y «dominio.com» requieren archivos individuales.

Pruebe el archivo robots.txt.

Por último, realiza una prueba rápida en Google Search Console para asegurarte de que tu archivo robots.txt funciona como debería.

Abra la herramienta de comprobación y realice un análisis rápido para ver si detecta algún error o mensaje de advertencia.

Si todo parece correcto, introduce una URL para probarla en el cuadro situado en la parte inferior de la página.

Elige el agente de usuario que quieres probar (en el menú desplegable).

Haz clic en «TEST».

En el botón «TEST» se leerá «ACCEPTED» o «BLOCKED», lo que le indica si ese archivo está bloqueado o no para el acceso de los rastreadores.

Si es necesario, puede editar el archivo y volver a probarlo. No olvide que cualquier edición realizada en la herramienta debe copiarse en el código de su sitio web y guardarse allí.

Cuándo no debe utilizar el archivo Robots.txt

Ahora, ya sabe cómo utilizar el archivo robots.txt para deshabilitar o permitir el acceso, pero ¿cuándo debe evitarlo?

Según Google, el archivo robots.txt no debería ser el método que utilices para bloquear URLs sin ton ni son. Este método de bloqueo no es un sustituto del desarrollo y la estructura adecuados del sitio web y, desde luego, no es un sustituto aceptable de las medidas de seguridad. Google ofrece algunas razones para utilizar varios métodos de bloqueo de rastreadores, para que puedas decidir cuál es el que mejor se adapta a tus necesidades.

Perfeccione su estrategia SEO y el diseño de su sitio web de la manera correcta con Leovel Publicidad

Usted ha aprendido que hay algunas situaciones en las que el archivo robots.txt puede ser increíblemente útil. Sin embargo, también hay más que unos pocos escenarios que no requieren un archivo robots.txt – e incluso puede crear accidentalmente un efecto dominó no intencional.

Con la ayuda del equipo de expertos en desarrollo y diseño web de Leovel Publicidad, puede asegurarse de que su sitio web cumple con todos los requisitos: SEO, usabilidad, estética y mucho más. Trabajaremos con usted para encontrar las soluciones ideales para cualquier desafío actual y crearemos estrategias innovadoras para alcanzar nuevos objetivos en el futuro. Ya sea que usted todavía está confundido sobre el archivo robots.txt, o simplemente está listo para obtener apoyo profesional de desarrollo web, Leovel Publicidad es su equipo para todas las cosas de marketing digital.