
根据Azure的服务健康状态表(上图),受损最严重的就是基於美国中南部数据中心的各式服务,从API管理、应用程式闸道、App Service、自动化、适用於MySQL与PostgreSQL的Azure资料库、Azure Cosmos DB、Azure监视器、语言或机器学习服务或VSTS等都被波及。
尽管意外是发生在美国中南部的数据中心,但除了座落在当地的使用者无法存取帐号之外,有监於内部架构的相依性,大多数的美国客户也无法使用发行管理(Release Management)功能,亦无法载入基於第三方工具的仪表板,所有区域的Mac Pools也都受到影响。
根据微软的说法,数据中心的故障源自於一连串的骨牌效应,主要是因为美国中南部一个数据中心附近出现了包括雷击在内的恶劣天气,造成电源的电压突然升高,进而影响冷却系统,为了维护资料与硬体的完整性,数据中心启动了关机的自动化程序,才会让服务中断。
冷却系统为现代数据中心最关键的元素之一,因为它必须替密集容纳数千台伺服器的数据中心降温,且大多数的云端服务供应商为了因应突然窜升的温度时,都有自动关机程序的配置,只是在关机後也必须花一点时间重启所有服务。
根据Azure目前的复原状态,微软已经重启美国中南部数据中心的电源,也已恢复Azure Storage缩放单位的软体负载平衡,目前仍在进行中的则是恢复对Azure Storage缩放单位的影响,以及恢复其它仰赖当地Azure Storage的各式服务。