Amazon heeft meer details gegeven over de oorzaak van haar panne. De oorzaak ligt bij het toevoegen van servers waardoor de maximumcapaciteit werd bereikt.
Op 25 november rond 19 uur Belgische tijd gingen een aantal AWS-diensten onderuit. Het ging om de Kinesis servers in de US-EAST-1 regio. De panne duurde vrijwel de hele avond en nacht, waarbij verschillende clouddiensten het lastig kregen.
AWS geeft nu meer uitleg bij de panne. Het probleem is ontstaan doordat Amazon extra capaciteit (servers) had toegevoegd aan haar Kinesis service, een dienst die zowel door klanten als door de eigen operaties van AWS worden gebruikt.
Die servers moeten onderling communiceren en elke server maakt threads aan voor de communicatie met andere Kinesis servers. Maar het gaat hier om een vloot van duizenden servers waardoor het bij een uitbreiding al snel een uur kan duren voor die extra toestellen in de hele vloot zijn opgenomen.
De problemen zijn specifiek ontstaan omdat door de uitbreiding het maximum aantal threads is overschreden. Dat probleem werd aangepakt, maar verplichtte AWS tot een herstart van de service. Maar omdat dat slechts kan met een paar honderd servers tegelijk, duurde de herstart bijzonder lang.
AWS zegt dat het probleem nu op lange termijn wordt aangepast. In eerste instantie door servers met krachtigere CPU’s en meer geheugen in te zetten, waardoor er minder servers in totaal nodig zijn, en dus minder threads worden aangemaakt. Tegelijk werkt het aan het alarm om tijdig te zien dat er te veel threads worden gebruikt, en worden bepaalde grote diensten, zoals CloudWatch, afgescheiden van de servervloot, zodat zij minder last hebben van gelijkaardige problemen.