Facebook down: errore durante la manutenzione

Facebook down: errore durante la manutenzione

Facebook ha fornito ulteriori dettagli tecnici sulle cause del blackout di oltre sei ore che ha colpito le sue piattaforme nel pomeriggio del 4 ottobre.
Facebook ha fornito ulteriori dettagli tecnici sulle cause del blackout di oltre sei ore che ha colpito le sue piattaforme nel pomeriggio del 4 ottobre.

Dopo aver fornito le prime informazioni sull'accaduto, Facebook ha ora spiegato in maniera più dettagliata il motivo che ha causato il blackout di oltre sei ore. Durante una normale procedura di manutenzione è stato inviato il comando sbagliato, quindi tutti i data center sono stati disconnessi da Internet.

Qualcuno ha commesso un errore

L'infrastruttura di Facebook è costituita da numerosi data center collegati tra loro e con Internet attraverso migliaia di Km di fibre ottiche. Il traffico tra i data center è gestito dai router che stabiliscono dove inviare i dati in entrata e uscita. Periodicamente gli ingegneri dell'azienda mettono fuori servizio alcune parti della rete che collega i data center per eseguire operazioni di manutenzione, come la riparazione della linea in fibra, l'aggiunta di maggiore capacità o l'aggiornamento del software dei router.

Durante l'operazione di manutenzione programmata per il 4 ottobre è stato inviato un comando per verificare la capacità del backbone che ha causato la disconnessione di tutti i data center. I sistemi di Facebook possono prevenire simili problemi, ma ciò è stato impedito da un bug presente nel tool di audit.

La “scomparsa” del social network (e di altri servizi) da Internet ha impedito inoltre ai server DNS di rispondere alle query (la conversione del nome di dominio nel suo indirizzo IP), in quanto le tabelle BGP erano tutte sballate.

Essendo irraggiungibili da remoto con i normali tool di diagnosi, gli ingegneri hanno dovuto visitare di persona i data center per effettuare le operazioni di ripristino. La procedura è stata tuttavia rallentata dalle misure di sicurezza che impediscono l'accesso fisico ai router. La riattivazione dei server è inoltre avvenuta gradualmente per evitare picchi di traffico e di consumi che avrebbero causato un ennesimo crash dell'infrastruttura. Ciò spiega il motivo delle oltre sei ore di blackout.

In seguito al blackout, Margrethe Vestager (Commissaria UE per la concorrenza) ha evidenziato la necessità di avere più alternative sul mercato, invece di fare affidamento su poche grandi aziende. Questo sarà uno degli obiettivi del Digital Market Act (Legge sui mercati digitali).

Fonte: Facebook
Link copiato negli appunti

Ti potrebbe interessare

06 10 2021
Link copiato negli appunti