Karl-Josef Hildenbrand/dpa via AP 

“Hai provato a spegnere e riaccendere?”

Siamo stati senza social per un errore umano (e un bug), dice Facebook

Francesco Stati

Alla base del guasto che lunedì ha interrotto i servizi di tutta la galassia di Zuckerberg non c'è un attacco criminale ma una manutenzione finita male (e una serie di sfortunati eventi)

Dopo le scuse, le spiegazioni. Sono passate poco più di 24 ore dal blackout simultaneo di Facebook, WhatsApp e Instagram quando sul blog ufficiale del social network di Mark Zuckerberg compare una spiegazione più precisa di quanto accaduto il 4 ottobre. Nessun attacco hacker, neanche un guasto. A detta di Santosh Janardhan, vicepresidente con responsabilità relative alle infrastrutture, a mettere fuori combattimento le piattaforme è stata “una serie di sfortunati eventi”, combinazione di un errore umano e di un bug del meccanismo di controllo. 

 

“Questa interruzione – si legge – è stata causata dal sistema che gestisce la capacità della nostra rete globale (definito “backbone”, spina dorsale, ndr)”. Si tratta della rete che Facebook ha costruito per connettere tutte le sue strutture informatiche, incluse quelle di gestione interna, che consiste in decine di migliaia di chilometri di cavi in ​​fibra ottica che attraversano il mondo e collegano tutti i suoi data center. Questi centri di smistamento e archiviazione dati possono essere di vario tipo: edifici che ospitano milioni di macchine che archiviano dati ed eseguono calcoli che mantengono in funzione i vari prodotti dell’azienda, strutture più piccole che collegano la “backbone” alla rete e agli utenti e molto altro. In parole povere, cuore e vasi sanguigni dell’organismo Facebook. Cosa è successo? Errore umano, dice l’azienda: “Nel lavoro quotidiano di manutenzione di questa infrastruttura, i nostri ingegneri hanno spesso bisogno di mettere parte della dorsale offline per la manutenzione. Durante uno di questi lavori ordinari, è stato inserito un comando per testare la “backbone” globale che ha involontariamente interrotto tutte le connessioni, disconnettendo tra loro i data center di Facebook”. 

 

Oltre all’errore, l'imprevisto: “I nostri sistemi sono progettati per controllare input come questi per prevenire errori simili, ma un bug negli strumenti di controllo ha impedito di interrompere il comando”. Da lì, ulteriori problemi, già ipotizzati nelle nostre analisi delle prime ore, relativi al Dns (che in poche parole traduce gli indirizzi IP in siti web) e al Border Gateway Protocol (Bgp, usato per connettere tra loro più router che appartengono a sistemi autonomi distinti): “I nostri server Dns disabilitano gli annunci Bgp se non possono parlare con i nostri data center, perché solitamente questa fattispecie indica l’esistenza di un problema di rete, circostanza causata dallo spegnimento della “backbone”. Con i nostri server Dns irraggiungibili, anche se operativi, trovarci su internet è stato quindi impossibile”. 

 

Con gli strumenti di diagnostica interna fuori gioco, è stata usata la più vecchia delle soluzioni: “Hai provato a spegnere e riaccendere?”. Facebook ha spedito una squadra di ingegneri in un data center in California per fare un reset manuale, eseguire un debug e riavviare il sistema. Un procedimento reso ancor più difficile dai protocolli di sicurezza presenti anche sui supporti fisici dei dati (hardware) e da possibili ulteriori errori che un riavvio massiccio e repentino di tutta la rete avrebbe potuto generare. Nonostante ciò, dopo ore di attesa i social di Menlo Park hanno ripreso vita, seppur con qualche acciacco.

 

Non è un periodo facile per l’azienda, sotto il fuoco incrociato di stampa e opinione pubblica a causa dell’inchiesta del Wall Street Journal sulle conseguenze dei social sui minori e delle iniziative dei parlamentari americani, tra chi l’accusa di censura (i repubblicani) e chi vuole smembrarla per spezzarne il monopolio (i democratici). Non una mossa difensiva, nessun complotto: solo tanta, tanta sfortuna. Almeno questa volta.

Di più su questi argomenti: