Microsoft explica la causa de la interrupción masiva del servicio de ayer
Microsoft arrojó luz sobre la causa raíz de la falla masiva de autenticación de Azure de ayer que afectó a varios servicios de Microsoft y bloqueó el acceso de los usuarios a sus cuentas.
Los clientes han encontrado errores de autenticación en muchos servicios de Microsoft, incluidos Microsoft 365, Microsoft Teams, Exchange Online, Forms, Xbox Live, Intune, Outlook.com, Office Web, SharePoint Online, OneDrive for Business, Yammer y otros.
Después de confirmar que la interrupción del servicio afectó el inicio de sesión y los flujos de autenticación entre sus servicios en línea, Microsoft dijo que las interrupciones generalizadas se deben a un problema de configuración de Azure Active Directory (Azure AD).
Este problema impedía que los usuarios se autenticaran en Microsoft 365, Exchange Online, Microsoft Teams o cualquier otro servicio basado en Azure AD.
"Entre las 19:00 UTC (aproximadamente) del 15 de marzo de 2021 y las 09:25 UTC del 16 de marzo de 2021, es posible que los clientes hayan encontrado errores al autenticarse para cualquier aplicación de Microsoft y de terceros que dependa de Azure Active Directory (Azure AD) para la autenticación, "Microsoft explicado hoy en un informe preliminar de análisis de causa raíz.
No rotar las claves de firma genera problemas de validación de tokens.
Como explicó Microsoft, los problemas de autenticación e inicio de sesión subyacentes a la interrupción de ayer fueron causados por un error que afectó la rotación correcta de las claves de firma utilizadas para admitir el uso de OpenID de Azure AD.
Las claves de firma son pares de claves criptográficas públicas y privadas que se utilizan para firmar las solicitudes de autenticación de un usuario.
La plataforma de identidad de Microsoft rota las claves de firma periódicamente por razones de seguridad, con aplicaciones necesarias para manejar eventos de transferencia de claves para que los intentos de autenticación no fallen.
"Como parte de la higiene de seguridad estándar, un sistema automatizado, basado en un programa basado en el tiempo, elimina las claves que ya no están en uso", dijo Microsoft.
"En las últimas semanas, una determinada clave se marcó como 'mantener' más tiempo de lo normal para admitir una migración compleja entre nubes. Esto expuso un error en el que la automatización ignoró por error ese estado 'mantener', lo que la llevó a eliminar esa clave en particular. . "
Una vez que se quitó la clave de firma, aunque se marcó para conservarse por más tiempo, las aplicaciones que usaban los servicios de autenticación de Azure AD dejaron de confiar inmediatamente en los tokens firmados con la clave quitada.
Esto resultó en la denegación de todos los intentos de los usuarios de acceder a las aplicaciones y servicios afectados y, como resultado, los usuarios ya no podían acceder a sus cuentas.
Los ingenieros de Microsoft restauraron metadatos clave a su interrupción previa al servicio en todo el mundo para mitigar el problema.
Sin embargo, la interrupción no se mitigó de inmediato debido a las diferentes "implementaciones de servidor que manejan el almacenamiento en caché de manera diferente".
Los usuarios continuaron experimentando problemas hasta que las aplicaciones afectadas pudieron recopilar los metadatos clave actualizados y actualizar sus cachés.
Aunque el impacto de la interrupción se mitigó en gran medida después de que se revirtieron cambios importantes, Microsoft todavía está trabajando para restaurar Intune y Microsoft Managed Desktop.
La mayoría de los servicios afectados por MO244568 se han restaurado, con la excepción de Intune y Microsoft Managed Desktop, que ahora se comunican con IT244611 y MG244657 respectivamente. Se pueden encontrar más detalles en el centro de administración.
- Estado de Microsoft 365 (@ MSFT365Status) 16 de marzo de 2021
El sistema de autenticación de copia de seguridad de Azure AD aún se está procesando
"Entendemos lo increíblemente impactante e inaceptable que es esto y nos disculpamos profundamente", dijo Microsoft.
"Estamos constantemente tomando medidas para mejorar la plataforma Microsoft Azure y nuestros procesos para garantizar que este tipo de incidentes no ocurran en el futuro".
En septiembre, los clientes de Microsoft experimentaron otra interrupción masiva en todo el mundo que mostraba errores "transitorios" que provocaron la caída de Office 365 y los servicios relacionados, incluidos Microsoft Teams, Office.com, Power Platform y Dynamics365.
Como explicó Microsoft en ese momento, la interrupción fue causada por una actualización del servicio Azure AD que afectó por error al entorno de producción.
Aunque Redmond comenzó a trabajar en un sistema de autenticación de respaldo de Azure AD después de la interrupción de septiembre, no ayudó porque solo está diseñado para cubrir problemas de emisión de tokens y no problemas de validación de tokens causados por un error de rotación de claves.
Descubre más contenido