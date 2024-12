OpenAI ha spiegato in modo dettagliato perché non è stato possibile accedere a ChatGPT e Sora a partire dalle ore 15:00 circa (ora della California) dell’11 dicembre. In seguito all’analisi “post-mortem” sull’incidente, l’azienda ha individuato la causa nel nuovo servizio di telemetria che permette di registrare le metriche di Kubernetes. Il problema non era quindi correlato al lancio del modello text-to-video.

Colpa del nuovo servizio di telemetria

Come si può leggere nella dashboard ufficiale, l’incidente si è verificato tra le 15:16 e le 19:38, quindi per oltre quattro ore l’accesso ai servizi è stato rallentato o impedito. OpenAI sottolinea che il problema non è stato causato dal lancio di Sora (e quindi dall’elevato traffico iniziale) o da un attacco informatico.

La causa è stata individuata nel rilascio di un nuovo servizio di telemetria che registra le metriche dei cluster Kubernetes. Quest’ultimo è sistema open source che permette di gestire i container usati per eseguire software in ambienti isolati. L’errata configurazione del servizio ha portato all’uso intensivo delle risorse dei server Kubernetes API e all’interruzione del servizio DNS.

La gestione delle richieste degli utenti viene effettuata dal data plane Kubernetes che può operare in maniera indipendente dal control plane, ma il server Kubernetes API necessita della risoluzione DNS. OpenAI ha eseguito una serie di procedure per accedere al control plane e rimuovere il servizio colpevole.

L’azienda californiana implementerà varie misure per evitare che accadano simili incidenti in futuro, tra cui il rollout graduale delle modifiche con monitoraggio continuo dei servizi.