Storing bij Amazon te wijten aan typfout
Dinsdag ging de clouddienst Amazon S3 offline. Als een domino volgde een groot deel van het internet. Intussen is de oorzaak bekend: een medewerker maakte een typfout in een commando.
Het begon met iets banaals. Omdat het subsysteem van de cloudopslagdienst AWS Simple Storage Service (S3) traag werkte, wilde een medewerker enkele servers van S3 offline halen. “Eén commando werd echter verkeerd ingegeven, waarna veel meer servers verwijderd werden dan de bedoeling was”, legt Amazon Web Services uit in een verklaring. Het gevolg was dat twee andere subsystemen er de brui aan gaven. Die moesten volledig herstart worden.
Dat is iets wat Amazon al jaren niet meer gedaan had. Intussen is Amazon S3 veel groter geworden, waardoor het hele proces veel langer duurder dan de clouddienstprovider had verwacht. Tussen de typfout en het herstel van Amazon S3 zaten uiteindelijk 4 uur en 17 minuten. Intussen waren een groot aantal apps en websites die de clouddiensten van AWS gebruiken niet of moeilijk te bereiken. De gevolgen op internet waren nauwelijks te overzien.
Aanvankelijk werd op de statuspagina van Amazon Web services geen probleem met de servers gemeld. Die statuspagina was immers zelf ook afhankelijk van S3, meldt Amazon in haar verklaring. Even ironisch was dat ook de gespecialiseerde website om te checken of een website onbereikbaar is door de storing onbereikbaar was.
Amazon belooft nu een hele rits maatregelen die moeten garanderen dat dergelijke storingen niet meer voorkomen. Zo zullen de herstelprocessen van de S3-subsystemen versneld worden. Ook zal Amazon beveiligingen invoeren die het haar medewerkers onmogelijk maken om in één keer een hele reeks servers offline te halen.
Fout opgemerkt of meer nieuws? Meld het hier