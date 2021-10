Facebook en diens platformen, waaronder WhatsApp, Instagram en Messenger gingen maandagavond een zestal uur plat, met alle memes en paniek die daarbij hoort. Het probleem lijkt hem te zitten in het border gateway protocol.

Maandagavond was in één klap een groot deel van de wereldwijde sociale media weg. Het imperium van Facebook, waaronder het sociale netwerk zelf, maar ook Messenger, Instagram, WhatsApp, Workplace en zelfs VR-dienst Oculus waren urenlang van het netwerk verdwenen.

En dat verdwijnen kan je letterlijk nemen, want hoewel de sites zelf niet gewist waren, kon geen enkel toestel de servers ernaar nog vinden. Volgens de officiële mededeling van Facebook lag het probleem bij 'een configuratie van de achterliggende servers die het netwerkverkeer coördineren'. Vandaar zouden de problemen zijn uitgedijd naar de communicatie van de datacenters, en ook de interne tools werden daardoor onbruikbaar. Die uitleg is redelijk vaag, maar het sterkt het vermoeden dat het hier om een mislukte update lijkt te gaan van het border gateway protocol (bgp).

De wegwijzers van het internet

Het bgp is een oerprotocol van het internet dat ervoor moet zorgen dat gebruikers en toestellen worden doorgeleid naar de juiste locatie van bijvoorbeeld hun chatberichten of de statuspost van hun nonkel. Het werkt een beetje zoals het domeinnamensysteem (dns), dat toestellen naar het juiste ip-adres begeleidt, maar dan op een hoger niveau. Kort door de bocht vertelt het aan de wereld hoe die naar het netwerk een bepaalde provider kan surfen of, in dit geval, van een techgigant.

Want Facebook zit niet bij de lokale Telenet. Het bedrijf heeft zijn eigen domeinregister en dns-servers, en gebruikt zijn eigen 'routing prefix' voor het eigen netwerk. Iedereen die een Facebook-app opent, moet dus naar het Facebook-netwerk worden geleid. Bij een update maandagavond zou die bewegwijzering echter zijn gewist, waardoor geen enkel toestel nog het Facebook-netwerk kon vinden. Het verklaart meteen waarom zoveel sites en apps tegelijk neer gingen. Cloudflare, zelf gespecialiseerd in het beheren van webverkeer voor sites, meldt in een blogpost dat een update alle bgp-routes naar Facebook weghaalde, waardoor ook Facebooks eigen dns-servers onbereikbaar werden.

Alles op de eigen server

Dat het zo lang duurde om de problemen te herstellen, lijkt dan weer het gevolg van die 'interne tools' die onbereikbaar werden. Rapporten van onder meer New York Times-reporter Sheera Frenkel melden dat Facebook-medewerkers niet konden inloggen op de eigen werkservers, of zelfs niet met hun badges binnen konden in de fysieke gebouwen, omdat alle systemen via de eigen servers lopen... die niet gevonden werden. Het lijkt er dus op dat degenen die de fout moesten herstellen, min of meer uit hun eigen infrastructuur werden buitengesloten.

Was just on phone with someone who works for FB who described employees unable to enter buildings this morning to begin to evaluate extent of outage because their badges weren’t working to access doors. — Sheera Frenkel (@sheeraf) October 4, 2021

Momenteel is er geen indicatie van kwaad opzet. Dit soort fout heeft bovendien één voordeel: voor een keer is er geen (extra) data gelekt, vermits het erop lijkt dat alleen de routing-servers, en niet de data-servers, schade ondervonden.

Maandagavond was in één klap een groot deel van de wereldwijde sociale media weg. Het imperium van Facebook, waaronder het sociale netwerk zelf, maar ook Messenger, Instagram, WhatsApp, Workplace en zelfs VR-dienst Oculus waren urenlang van het netwerk verdwenen. En dat verdwijnen kan je letterlijk nemen, want hoewel de sites zelf niet gewist waren, kon geen enkel toestel de servers ernaar nog vinden. Volgens de officiële mededeling van Facebook lag het probleem bij 'een configuratie van de achterliggende servers die het netwerkverkeer coördineren'. Vandaar zouden de problemen zijn uitgedijd naar de communicatie van de datacenters, en ook de interne tools werden daardoor onbruikbaar. Die uitleg is redelijk vaag, maar het sterkt het vermoeden dat het hier om een mislukte update lijkt te gaan van het border gateway protocol (bgp). Het bgp is een oerprotocol van het internet dat ervoor moet zorgen dat gebruikers en toestellen worden doorgeleid naar de juiste locatie van bijvoorbeeld hun chatberichten of de statuspost van hun nonkel. Het werkt een beetje zoals het domeinnamensysteem (dns), dat toestellen naar het juiste ip-adres begeleidt, maar dan op een hoger niveau. Kort door de bocht vertelt het aan de wereld hoe die naar het netwerk een bepaalde provider kan surfen of, in dit geval, van een techgigant. Want Facebook zit niet bij de lokale Telenet. Het bedrijf heeft zijn eigen domeinregister en dns-servers, en gebruikt zijn eigen 'routing prefix' voor het eigen netwerk. Iedereen die een Facebook-app opent, moet dus naar het Facebook-netwerk worden geleid. Bij een update maandagavond zou die bewegwijzering echter zijn gewist, waardoor geen enkel toestel nog het Facebook-netwerk kon vinden. Het verklaart meteen waarom zoveel sites en apps tegelijk neer gingen. Cloudflare, zelf gespecialiseerd in het beheren van webverkeer voor sites, meldt in een blogpost dat een update alle bgp-routes naar Facebook weghaalde, waardoor ook Facebooks eigen dns-servers onbereikbaar werden. Dat het zo lang duurde om de problemen te herstellen, lijkt dan weer het gevolg van die 'interne tools' die onbereikbaar werden. Rapporten van onder meer New York Times-reporter Sheera Frenkel melden dat Facebook-medewerkers niet konden inloggen op de eigen werkservers, of zelfs niet met hun badges binnen konden in de fysieke gebouwen, omdat alle systemen via de eigen servers lopen... die niet gevonden werden. Het lijkt er dus op dat degenen die de fout moesten herstellen, min of meer uit hun eigen infrastructuur werden buitengesloten.Momenteel is er geen indicatie van kwaad opzet. Dit soort fout heeft bovendien één voordeel: voor een keer is er geen (extra) data gelekt, vermits het erop lijkt dat alleen de routing-servers, en niet de data-servers, schade ondervonden.