Amazon Web Services Error Caido

Amazon Web Services (AWS) ha explicado la causa de la interrupción del servicio que por horas afectó el funcionamiento de muchos sitios web a principios de esta semana.

El equipo de Amazon Simple Storage Service (S3) estaba depurando un problema en el sistema de facturación S3 el martes (28 de febrero) por la mañana, cuando un miembro del equipo ejecutó un comando que tenía la intención de eliminar un pequeño número de servidores para uno de los subsistemas. Explica un portavoz de AWS:

Desafortunadamente, una de las entradas para el comando se ingresó incorrectamente y un conjunto más grande de servidores fue eliminado imprevistamente. Los servidores que fueron removidos inadvertidamente soportaban otros dos subsistemas de S3.

Continua explicando:

Un subsistema de índice que gestiona los metadatos y la información de localización de todos los objetos de S3 en la región, (el centro de datos de Virginia) fue uno de los dos afectados.

Este subsistema es necesario para servir a todas las solicitudes GET, LIST, PUT y DELETE. El segundo, el subsistema de colocación, encargado de gestionar la asignación de nuevo almacenamiento, requiere que el subsistema de índice funcione correctamente.

Amazon tuvo que hacer un reinicio completo de los sistemas afectados después de la interrupción inesperada. “Mientras estos subsistemas se reiniciaban, S3 no pudo atender solicitudes”, escribió Amazon.

Robot rompe lata de repelente para osos y manda a trabajadores de Amazon al hospital

Otros servicios de AWS en la región US-EAST-1 que dependen de S3 para el almacenamiento, incluyendo la consola S3, lanzamientos de nueva instancia de Amazon Elastic Compute Cloud (EC2), volúmenes de Amazon Elastic Block Store (EBS) S3 snapshot, y AWS Lambda, también se vieron afectados, mientras que el las interfaces de programación de aplicaciones (API) de S3 no se encontraban disponibles.

Enfocados en prevenir una recurrencia, Amazon está revisando herramientas operacionales para asegurarse de que tienen controles de seguridad eficientes y “hará cambios para mejorar el tiempo de recuperación de los subsistemas clave de S3”.

Más en TekCrispy