Microsoft explica la causa de la reciente interrupción de Office 365

Azure AD

Un informe preliminar de Microsoft afirma que un error en la implementación de una actualización del servicio Azure AD hizo que Office 365 se cerrara el lunes.

Hasta las 5:20 p.m. EST del 28 de septiembre, personas de todo el mundo no han podido acceder a Office 365 y otros servicios relacionados, incluidos Microsoft Teams, Office.com, Power Platform y Dynamics365.

Durante el intento, las personas fueron recibidas con un mensaje de error "AADSTS90033: Se produjo un error transitorio. Vuelva a intentarlo".

Error transitorio

Los que ya habían iniciado sesión en estos servicios no se vieron afectados en gran medida por la interrupción.

Índice de contenidos()

    La actualización del servicio golpea accidentalmente el entorno de producción

    Según un informe preliminar posterior al bloqueo de Microsoft, una actualización de servicio para Azure AD afectó incorrectamente al entorno de producción y provocó una reducción en la disponibilidad del servicio.

    Al implementar actualizaciones de servicio, Microsoft las prueba primero en cinco "anillos" diferentes antes de que la actualización llegue a producción. Este procedimiento permite a Microsoft probar una actualización en los anillos internos con pocos datos antes de que lleguen a los anillos de producción utilizados por sus clientes.

    Un error en el proceso de implementación segura (SDP) de Microsoft provocó que se implementara una actualización de servicio en todos los anillos a la vez en lugar de la primera implementación en el anillo de prueba.

    "Azure AD está diseñado para ser un servicio distribuido geográficamente en una configuración activo-activo con múltiples particiones en múltiples centros de datos alrededor del mundo, construido con límites de aislamiento. Normalmente, los cambios inicialmente apuntan a un anillo de validación que no contiene datos. del cliente, seguido de un anillo interior que contiene solo usuarios de Microsoft y, finalmente, nuestro entorno de producción. Estos cambios se eliminan gradualmente en cinco anillos durante varios días ".

    "En este caso, el sistema SDP no pudo abordar correctamente el anillo de prueba de validación debido a un defecto latente que afectó la capacidad del sistema para interpretar los metadatos de distribución. Como resultado, se tomaron todos los anillos. al mismo tiempo. La implementación incorrecta provocó un deterioro en la disponibilidad del servicio ", explicó Microsoft en su informe preliminar después del accidente.

    Al enterarse de los problemas, Microsoft intentó revertir el cambio automáticamente, pero un error en el proceso de implementación segura (SDP) corrompió los metadatos y requirió una reversión manual mucho más larga.

    "A los pocos minutos del impacto, revertimos el cambio utilizando sistemas de reversión automáticos que normalmente habrían limitado la duración y la gravedad del impacto. Sin embargo, la falla latente en nuestro sistema SDP había dañado los metadatos de implementación y tuvimos que recurriendo a procesos de reversión manual. Esto extendió enormemente el tiempo para mitigar el problema ", explicó Microsoft.

    Durante esta interrupción, Microsoft dijo que las regiones de América y Asia-Pacífico sufrieron la mayoría de los problemas al acceder a los servicios.

    Se espera que un informe final de Microsoft esté disponible al final del día 3 de octubre.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir