Amazon explica su ‘caída’ de la nube

La compañía de comercio electrónico se disculpó por la falla que desconectó al mundo de su red; el fallo impidió a firmas acceder a datos en la Costa Este, siendo el colapso en Virginia del Norte.
amazon  (Foto: CNN)
David Goldman
NUEVA YORK -

Amazon emitió el viernes una disculpa y un análisis detallado por el apagón que sufrió la semana pasada su servicio en 'nube', un incidente que provocó la caída de numerosas páginas web. El fallo en el servicio web EC2 o Elastic Compute Cloud, limitó el acceso de los clientes a mucha de la información almacenada en los centros de datos que la compañía opera en la Costa Este. Cerca de 75 sitios web colapsaron debido al apagón.

Tras valorar lo sucedido, la compañía emitió una explicación técnica del fallo. El incidente -el de mayor duración y alcance que ha sufrido EC2 desde su lanzamiento hace cinco años- fue provocado por un error cometido por los ingenieros de Amazon, que a su vez desembocó en una cascada de problemas técnicos.

El 21 de abril, los servicios web de Amazon (AWS) intentaban mejorar la capacidad  de una sección de almacenamiento de su red regional en Virginia del Norte. A dicha sección se le denomina availability zone o zona de disponibilidad; en cada región hay múltiples zonas, de forma que la información se distribuya por varias zonas para protegerla contra la pérdida de datos o la caída de servicio.

Para realizar esa actualización se precisa redirigir el tráfico, y en lugar de redirigirlo a su red principal, Amazon por accidente lo envió a su red secundaria. Esa red secundaria no está diseñada para gestionar el flujo masivo de tráfico, por lo que se saturó y colapsó, aislando los nodos de almacenamiento de la red.

Cuando Amazon corrigió el flujo de tráfico, se accionó un mecanismo de seguridad: los volúmenes de almacenamiento enloquecieron y comenzaron a buscar un sitio para respaldar sus datos, lo que a su vez activó una 'tormenta de reflejos', saturando todo el espacio de almacenamiento disponible. Cuando los volúmenes de almacenamiento no pudieron encontrar una forma de respaldo, se 'atascaron'. En el pico del problema, cerca del 13% de los volúmenes de las zonas de disponibilidad se encontraba atascado.

¿Pero por qué un problema en una zona de disponibilidad afectó a una región entera? Ese es precisamente el tipo de fallo que la infraestructura de Amazon debe prevenir.

Bien, resulta que EC2 tiene algunas deficiencias, el sistema maestro que coordina toda la comunicación dentro de la región tenía fallas de diseño. Se sobrecargó, colapsó y convirtió un problema aislado en uno de amplio alcance. Esas fallas de diseño ya existían, pero no fueron descubiertas hasta que Amazon activó ese efecto dominó.

La compañía advirtió que conocer esas deficiencias y repararlas hará que EC2 sea incluso más sólida. Amazon ya ha realizado algunos ajustes y mejoras, y planea hacer otras en el transcurso de las próximas semanas. Así, el error presentó "muchas oportunidades para proteger el servicio contra eventos similares", indicó la empresa.

Claro que los clientes de Amazon no están tan contentos de haber sido parte de esta experiencia de aprendizaje. En su disculpa, la compañía ofreció a los afectados un crédito por 10 días de servicio gratuito.

¿Quieres más noticias como esta?
Conoce las innovaciones y las tendencias tecnológicas más relevantes.

"Queremos disculparnos. Sabemos lo fundamentales que son nuestros servicios para los negocios de nuestros clientes y haremos todo lo posible para aprender de lo sucedido y usarlo para mejorar todos nuestros servicios", declaró la empresa.

 

Ahora ve
Tiroteo en hospital de Guatemala deja seis muertos
No te pierdas
×