E non è tutto! I CDN non archiviano solo i contenuti più vicino ai dispositivi che li desiderano. Aiutano anche a indirizzarlo su Internet. “È come orchestrare il flusso del traffico su un enorme sistema stradale”, afferma Ramesh Sitaraman, informatico presso l’Università del Massachusetts ad Amherst che ha contribuito a creare il primo grande CDN come architetto principale di Akamai. “Se un collegamento su Internet fallisce o viene congestionato, gli algoritmi CDN trovano rapidamente un percorso alternativo verso la destinazione”.
Quindi puoi iniziare a vedere come quando un CDN va giù, può portare con sé un sacco di porzioni di Internet. Anche se questo da solo non spiega come gli impatti di martedì siano stati così di vasta portata, specialmente quando ci sono così tante ridondanze integrate in questi sistemi. O almeno, dovrebbe esserci.
CDN consolidati
Per la parte migliore di martedì, non era chiaro esattamente cosa fosse successo a Fastly. “Abbiamo identificato una configurazione del servizio che ha innescato interruzioni nei nostri POP a livello globale e abbiamo disabilitato tale configurazione”, ha detto un portavoce dell’azienda in una nota quella mattina. “La nostra rete globale sta tornando online”.
Martedì sera, la società ha offerto maggiori dettagli in un blog che descriveva in dettaglio l’incidente. La causa principale risale al 12 maggio, quando la società ha inavvertitamente introdotto un bug come parte di un’ampia distribuzione di software. Come una runa che sblocca i suoi poteri malvagi solo sotto un certo incantesimo, il bug era innocuo fino a quando ea meno che un client Fastly non avesse configurato la propria configurazione in un modo specifico. Cosa che, quasi un mese dopo, fece uno di loro.
L’interruzione globale è iniziata alle 5:47 ET; Individuato rapidamente in un minuto. Ci è voluto un po’ di più, fino alle 6:27 ET, per identificare la configurazione che ha attivato il bug che ha causato l’errore. A questo punto, l’85 percento della rete di Fastly restituiva errori; ogni continente tranne l’Antartide ha sentito l’impatto. Hanno iniziato a tornare alle 6:36 ET, e tutto è tornato alla normalità all’inizio dell’ora.
Anche dopo che Fastly ha risolto il problema sottostante, ha avvertito che gli utenti potevano ancora vedere un “rapporto di riscontri nella cache” più basso, ovvero la frequenza con cui è possibile trovare il contenuto che stai cercando già archiviato in un server vicino, e un “carico di origine aumentato”, che si riferisce al processo di ritorno alla fonte per gli elementi non nella cache. In altre parole, gli armadi erano ancora abbastanza spogli. E non è stato fino a quando non sono stati riforniti a livello globale che Fastly ha affrontato il bug sottostante stesso. Alla fine hanno proposto una “riparazione permanente” diverse ore dopo, verso l’ora di pranzo sulla costa orientale.
È sorprendente che si sia verificata un’interruzione, dato che i CDN sono generalmente progettati per resistere a queste tempeste. “In linea di principio, c’è una massiccia ridondanza”, afferma Sitaraman, parlando dei CDN in generale. “Se un server si guasta, altri server potrebbero assumersi il carico. Se un intero data center si guasta, il carico può essere spostato in altri data center. Se le cose funzionassero perfettamente, potresti avere molte interruzioni di rete, problemi di data center e guasti del server; i meccanismi di resilienza del CDN assicureranno che gli utenti non vedano mai il degrado”.
Quando le cose vanno male, dice Sitaraman, si tratta in genere di un bug del software o di un errore di configurazione che viene inviato a più server contemporaneamente.
Anche allora, i siti e i servizi che impiegano i CDN hanno in genere le proprie ridondanze. O almeno, dovrebbero. In effetti, si possono vedere indizi di quanto siano diversificati i vari servizi nella velocità della loro risposta questa mattina, afferma Medina. Amazon ha impiegato circa 20 minuti per tornare operativo, perché potrebbe deviare il traffico verso altri provider CDN. Chiunque si affidasse esclusivamente a Fastly o non disponesse di sistemi automatizzati per far fronte all’interruzione, ha dovuto aspettare.
.