Bienvenido al blog de Undercode   Click to listen highlighted text! Bienvenido al blog de Undercode
Inicio Noticias Cloudflare R2 sufre interrupción global por error en la rotación de credenciales

Cloudflare R2 sufre interrupción global por error en la rotación de credenciales

por Dragora

Cloudflare informó sobre una interrupción en su servicio de almacenamiento de objetos R2, que afectó su disponibilidad a nivel mundial durante 1 hora y 7 minutos. Esta falla provocó un 100 % de errores en escrituras y un 35 % en lecturas, impactando a múltiples servicios dependientes de R2.

¿Qué es Cloudflare R2?

Cloudflare R2 es una solución escalable de almacenamiento de objetos, compatible con S3 y diseñada para ofrecer recuperación de datos gratuita, replicación en múltiples regiones e integración directa con los servicios de Cloudflare. Su objetivo es proporcionar almacenamiento de alta disponibilidad sin tarifas de salida de datos, lo que lo convierte en una alternativa competitiva a AWS S3 y otras soluciones del mercado.

Causa de la interrupción en Cloudflare R2

La falla, que ocurrió entre las 21:38 UTC y las 22:45 UTC, fue ocasionada por un error en la rotación de credenciales, lo que dejó a la puerta de enlace R2 (el frontend de API) sin acceso autenticado al almacenamiento de backend.

El problema se generó cuando las nuevas credenciales fueron implementadas en un entorno de desarrollo en lugar de en el de producción. Posteriormente, al eliminar las credenciales antiguas, el entorno de producción se quedó sin acceso válido. La causa raíz fue la omisión de un parámetro clave en la línea de comandos:

1
--env production

, lo que impidió que las nuevas credenciales fueran aplicadas correctamente al trabajador de puerta de enlace de producción.

Debido a la estructura de los servicios de Cloudflare, este error no se hizo evidente de inmediato, generando retrasos en su detección y corrección. La empresa explicó que la degradación del servicio ocurrió de manera gradual, dificultando su identificación rápida.

Impacto de la interrupción en los servicios de Cloudflare

Aunque el incidente no provocó pérdida ni corrupción de datos, sí generó una degradación significativa en diversos servicios:

  • Cloudflare R2: 100 % de fallos en escritura y 35 % en lectura. Los objetos en caché permanecieron accesibles.
  • Reserva de caché: Incremento en el tráfico de origen debido a lecturas fallidas.
  • Imágenes y transmisión: Fallo en cargas de archivos, reduciendo la entrega de imágenes al 25 % y la transmisión al 94 %.
  • Servicios afectados: Seguridad de correo electrónico, vectorización, entrega de registros, facturación y transparencia de claves de auditoría experimentaron diversos niveles de degradación.

Cloudflare (en inglés)

Medidas correctivas para prevenir futuras fallas

Para evitar que un incidente similar vuelva a ocurrir, Cloudflare ha implementado diversas mejoras en sus procesos de seguridad y gestión de credenciales:

  1. Registro y verificación de credenciales: Se han fortalecido los controles para validar que las credenciales correctas sean aplicadas en el entorno adecuado.
  2. Automatización de despliegues: Ahora se requiere el uso de herramientas automatizadas para minimizar el riesgo de errores humanos.
  3. Validación dual en acciones de alto impacto: Se ha actualizado el procedimiento operativo estándar (SOP) para exigir revisión y aprobación doble en procesos críticos, como la rotación de credenciales.
  4. Mejoras en las comprobaciones de estado: Se han optimizado las verificaciones del estado de los servicios para detectar rápidamente fallas y tomar acciones correctivas de manera más eficiente.

Antecedentes de interrupciones en Cloudflare R2

Esta no es la primera vez que Cloudflare R2 sufre una interrupción importante. En febrero, el servicio experimentó una caída de una hora debido a otro error humano. En esa ocasión, un operador respondió a un reporte de abuso sobre una URL de phishing en el servicio R2 y, en lugar de bloquear solo el punto de conexión afectado, desactivó por completo el servicio R2 Gateway.

La falta de salvaguardas y verificaciones previas para acciones de alto impacto contribuyó a esta interrupción, lo que llevó a Cloudflare a implementar nuevas medidas de seguridad, incluyendo:

  • Mejora en el aprovisionamiento de cuentas para evitar desactivaciones accidentales.
  • Control de acceso más estricto para limitar acciones críticas a personal autorizado.
  • Procesos de aprobación de dos partes en cambios de alto riesgo, reduciendo la posibilidad de errores humanos.

En fin, las recientes interrupciones en Cloudflare R2 evidencian los desafíos técnicos y operativos en la gestión de infraestructuras de almacenamiento en la nube. Si bien la empresa ha tomado medidas para fortalecer la seguridad y evitar fallas futuras, estos incidentes destacan la importancia de implementar protocolos de validación rigurosos y automatizar procesos críticos para garantizar la estabilidad del servicio.

A medida que Cloudflare continúa expandiendo sus soluciones en la nube, la prevención de errores humanos y la optimización de sus procesos seguirán siendo clave para mantener su fiabilidad y la confianza de sus usuarios.

Fuente: Bleeping Computer

You may also like

Dejar Comentario

Click to listen highlighted text!