Bloqueamos accidentalmente 600 páginas estratégicas con robots.txt

Febrero de 2024. Las conversiones cayeron 35% en dos semanas. Culpamos a la estacionalidad, al nuevo diseño, a cambios en el algoritmo. Todo menos lo obvio. Nuestras páginas principales dejaron de aparecer en resultados de búsqueda porque las bloqueamos sin querer en robots.txt.

El error sucedió durante una limpieza de archivos temporales. Alguien agregó una regla para bloquear /temp/ pero escribió /temp en lugar de /temp/. Esa barra diagonal faltante bloqueó toda carpeta o archivo que empezara con "temp", incluyendo /templates/ donde vivían 600 páginas de productos.

Paso 1: Confirmar el bloqueo

Probamos URLs específicas en la herramienta de prueba de robots.txt de Search Console. Efectivamente, todas las páginas de /templates/ mostraban "bloqueado por robots.txt". El rastreo había cesado completamente siete semanas atrás, justo cuando hicimos el cambio.

Paso 2: Revisar el historial de cambios

Buscamos en el repositorio Git todos los commits al archivo robots.txt. Encontramos la línea problemática: "Disallow: /temp" sin la barra final. Una revisión de código habría detectado esto, pero nadie considera robots.txt lo suficientemente importante para revisiones formales.

Paso 3: Corregir la sintaxis

Cambiamos "Disallow: /temp" a "Disallow: /temp/" con la barra final. También agregamos comentarios explicando qué bloquea cada regla y por qué. Documentamos la estructura de carpetas para evitar confusiones futuras sobre qué rutas son críticas.

Paso 4: Verificar otras reglas

Revisamos las otras 23 reglas en robots.txt. Encontramos tres más con sintaxis ambigua que podían causar problemas similares. Una bloqueaba /admin pero también coincidía con /administration/, una sección pública del sitio. Corregimos todas usando patrones específicos.

Paso 5: Forzar rerastreo inmediato

Después de corregir robots.txt, enviamos todas las URLs afectadas a través de la API de indexación de Google. No usamos la interfaz web porque el límite es 10 URLs por día. Con la API pudimos enviar 200 por día durante una semana.

Paso 6: Monitorear la recuperación

Configuramos alertas en Search Console para rastreo bloqueado. Ahora recibimos notificación inmediata si cualquier página importante se bloquea. También implementamos pruebas automatizadas que verifican robots.txt contra una lista de URLs críticas cada vez que se modifica el archivo.

La recuperación completa tomó cinco semanas. Las páginas volvieron al índice gradualmente, pero las posiciones tardaron más en restablecerse. Perdimos aproximadamente $47,000 en ingresos por conversiones perdidas. Todo por una barra diagonal faltante que nadie verificó antes de desplegar a producción.

Bloqueamos accidentalmente 600 páginas estratégicas con robots.txt

Privacidad y cookies