robots.txt es un archivo de texto utilizado por los sitios web para comunicarse con los rastreadores o "spiders" de los motores de búsqueda y otros rastreadores Webs. El propósito de este archivo es indicar a los rastreadores qué partes del sitio Web pueden o no pueden ser rastreadas o indexadas y cuáles deben ser excluidas.
Cuando un motor de búsqueda o un bot de rastreo accede a un sitio web, lo primero que hace es buscar el archivo robots.txt en la raíz del dominio Ejemplo: "www.contenidoslibres.net/robots.txt"
Si este archivo está presente, el motor de búsqueda lo lee para determinar qué partes del sitio web debe rastrear y qué partes debe omitir.
El archivo robots.txt se utiliza principalmente para evitar que ciertas secciones del sitio web sean indexadas o para bloquear el acceso a ciertos directorios sensibles o privados. No es necesario permitir que los motores de búsqueda rastreen todas las páginas de tu web, porque no todas tienen que posicionarse.
Algunos ejemplos son los sitios de pruebas, las páginas de resultados internos, las páginas duplicadas o las páginas de inicio de sesión o administración.
También puede utilizarse para limitar la frecuencia de rastreo de un sitio para evitar sobrecargas en el servidor. El "presupuesto de rastreo" es el número de páginas que los buscadores rastrearán en tu web. Al bloquear las páginas innecesarias con robots.txt, Googlebot (el rastreador web de Google) puede dedicar más presupuesto de rastreo a las páginas que sí te importan.
Crear un archivo robots.txt es un proceso bastante sencillo.
Abre un editor de texto: Puedes usar cualquier editor de texto simple, como el Bloc de notas en Windows o TextEdit en macOS.
Escribe las directivas: El archivo robots.txt sigue un formato específico. Cada línea debe contener dos campos separados por dos puntos (:). El primer campo es el nombre o agente del rastreador al que se aplica la regla, y el segundo campo es la directiva o la acción que el rastreador debe seguir.
Las directivas Allow y Disallow son dos de las directivas más comunes utilizadas en el archivo robots.txt para controlar qué partes de un sitio web pueden ser rastreadas o indexadas por los motores de búsqueda.
Disallow: Esta directiva se utiliza para indicar a los rastreadores qué partes del sitio web no deben ser rastreadas o indexadas. Especificas los directorios o archivos que deseas bloquear. Si un rastreador encuentra una regla Disallow para un determinado agente, no indexará las páginas o recursos que coincidan con la ruta especificada.
Allow: Esta directiva se utiliza para permitir ciertas partes del sitio web que, de lo contrario, estarían bloqueadas por la regla Disallow. Puedes utilizar Allow para anular una regla Disallow anterior o para permitir el acceso a recursos específicos dentro de un directorio bloqueado
Por ejemplo, si quieres bloquear todos los rastreadores de todos los directorios de tu sitio web, puedes usar la siguiente línea: User-agent: *
Disallow: / Esto indicará a todos los rastreadores que no deben rastrear ninguna parte del sitio.
Agrega más directivas según sea necesario: Puedes agregar múltiples líneas en el archivo robots.txt para aplicar diferentes reglas a diferentes rastreadores. Por ejemplo, si deseas permitir el acceso a ciertos directorios, puedes usar la directiva Allow.
User-agent: Googlebot
Disallow: /privado/
User-agent: Bingbot
Disallow: /temporal/
User-agent: *
Allow: /
También en el robts.txt se añade el comando "sitemap" indica a los motores de búsqueda, concretamente a Bing, Yandex y Google, dónde encontrar tu sitemap XML.
Los sitemaps generalmente incluyen las páginas que quieres que los motores de búsqueda rastreen e indexen.
Puedes encontrar esta directiva en la parte superior o inferior de un archivo robots.txt de esta manera:
"sitemap: https://www.contenidoslibres.net/sitemap.xml"
Guarda el archivo: Una vez que hayas escrito las directivas que deseas aplicar, guarda el archivo con el nombre "robots.txt". Asegúrate de que el archivo esté guardado en la raíz de tu dominio, lo que significa que su ubicación debe ser algo como: www.contenidoslibres.net/robots.txt
El archivo robots.txt debe estar siempre en la raíz de tu dominio. Si lo colocas en cualquier otro lugar, los rastreadores asumirán que no tienes el archivo.
Verifica tu archivo: Para asegurarte de que el archivo robots.txt esté configurado correctamente, puedes acceder a él a través de tu navegador web escribiendo la URL completa en la barra de direcciones (por ejemplo, www.ejemplo.com/robots.txt). Esto te permitirá revisar el contenido del archivo y asegurarte de que las directivas sean las adecuadas para tus necesidades.
Recuerda que el archivo robots.txt es solo una sugerencia para los rastreadores de los motores de búsqueda, y no todos los rastreadores lo siguen al pie de la letra. Si deseas proteger información sensible o privada, es mejor implementar otras medidas de seguridad adicionales.