Qué es el archivo robots.txt y cómo configurarlo sin romper tu web

El archivo robots.txt es una de las piezas más sencillas y a la vez más delicadas dentro del SEO técnico. Aunque su estructura puede parecer trivial, un error en su configuración puede afectar gravemente al posicionamiento de una web, impedir el rastreo correcto de páginas clave o incluso hacer que un sitio entero desaparezca de Google. Por eso, es fundamental entender qué es, para qué sirve y cómo utilizarlo con seguridad.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto que se coloca en la raíz de un sitio web (por ejemplo: tusitio.com/robots.txt) y que sirve para dar instrucciones a los bots de los motores de búsqueda sobre qué secciones de la web pueden o no pueden rastrear.

No es un sistema de seguridad ni un método para ocultar contenido, sino una guía para bots como Googlebot. Si se configura correctamente, puede ayudar a optimizar el presupuesto de rastreo, evitar indexación innecesaria de páginas sin valor SEO y proteger recursos internos que no deberían ser públicos. Si se configura mal, puede bloquear el acceso de los buscadores a contenido esencial.

Cómo funciona el archivo robots.txt

El archivo utiliza directivas muy concretas. Las más habituales son:

User-agent: especifica el bot al que van dirigidas las instrucciones (por ejemplo, Googlebot).
Disallow: indica qué rutas no deben ser rastreadas.
Allow: permite el rastreo de rutas específicas dentro de una carpeta bloqueada.
Sitemap: proporciona la ubicación del sitemap XML para ayudar a los bots a encontrar el contenido del sitio.

Ejemplo básico de archivo robots.txt

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://tusitio.com/sitemap.xml

Este archivo le dice a todos los bots (*) que no rastreen la carpeta /wp-admin/, excepto un archivo concreto, el admin-ajax.php, y les proporciona el enlace al sitemap.

Riesgos comunes y errores que debes evitar

Uno de los errores más graves y frecuentes es bloquear por completo el acceso de los bots al sitio entero con una simple línea:

User-agent: *
Disallow: /

Esto impide que cualquier buscador rastree ninguna página del dominio.

Otro error habitual es intentar usar el archivo robots.txt para evitar la indexación, cuando su función real es controlar el rastreo. Si bien bloquear una URL puede impedir que Google la explore, no garantiza que no se indexe. Para eso es mejor usar la etiqueta noindex en el HTML de la página.

También es común no incluir la URL del sitemap, lo que representa una oportunidad perdida para facilitar el rastreo completo del sitio.

Cómo configurarlo correctamente sin romper tu web

Antes de editar el archivo robots.txt, es recomendable hacer una auditoría de qué se está rastreando actualmente. Herramientas como Google Search Console, Screaming Frog o Ahrefs pueden ayudarte a detectar qué rutas están siendo accedidas por los bots y cuáles no.
Después, define claramente qué quieres bloquear: ¿zonas privadas? ¿páginas de filtros sin valor? ¿archivos duplicados? Y asegúrate de probar tu archivo antes de publicarlo usando la herramienta de prueba de robots.txt de Google.
Evita bloquear recursos como archivos CSS o JavaScript, ya que Google necesita acceder a ellos para renderizar correctamente la página y evaluar su usabilidad.
Finalmente, asegúrate de que el archivo esté accesible públicamente en la raíz del dominio (tusitio.com/robots.txt) y que no contenga errores de sintaxis.

El archivo robots.txt es una herramienta poderosa para controlar el rastreo, pero debe utilizarse con precisión. Bien configurado, mejora el rendimiento SEO y evita sobrecargar los recursos del servidor. Mal usado, puede bloquear el acceso a páginas clave y perjudicar seriamente la visibilidad del sitio. Con una comprensión básica de su función y una revisión cuidadosa antes de aplicar cambios, es posible aprovecharlo al máximo sin asumir riesgos innecesarios.

Volver a blog

NubeSEO

Conoce la actualidad de NUBESEO y el mundo del SEO, Desarrollo web y Marketing Digital.

Marbella | Madrid | Córdoba | Málaga

Categorias

Post relacionados

GPT-5 vs Gemini: cuál es la mejor IA para marketing digital en 2025

Cómo crear un calendario editorial eficaz para tu estrategia de marketing digital

¿Qué es el contenido evergreen y cómo ayuda a tu SEO a largo plazo?

Últimos Posts

GPT-5 vs Gemini: cuál es la mejor IA para marketing digital en 2025

Cómo crear un calendario editorial eficaz para tu estrategia de marketing digital

¿Qué es el contenido evergreen y cómo ayuda a tu SEO a largo plazo?