‘Blackwell-chip van Nvidia kampt met hitteproblemen’
De nieuwste AI-chip van Nvidia voor datacenters kan servers oververhitten. Het bedrijf zelf zegt dat er niets ongewoons aan de hand is.
Nvidia stelde in maart haar Blackwell GPU reeks voor die tot 20 petaflops aan rekenkracht heeft. Een van die versies combineert twee GPU’s tot één chip die tot dertig keer sneller kan werken rond grote taalmodellen (LLM’s). Dat moet zorgen voor snellere antwoorden en/of minder stroomverbruik.
Maar de chip komt er niet zonder problemen. Aanvankelijk stond Blackwell gepland voor het tweede kwartaal van dit jaar (april-juni), maar die komst werd uitgesteld. In oktober maakte het bedrijf bekend dat het samen met TSMC, dat de chips van Nvidia produceert, een ontwerpfout in de chips had opgelost.
Nu schrijft The Information dat Blackwell ook met warmteproblemen kampt, specifiek in servers waar er tot 72 van die chips in één behuizing zitten. Nvidia zou daarop al meermaals gevraagd hebben aan leveranciers om het ontwerp van de racks aan te passen.
‘Niet abnormaal’
Nvidia zelf zegt aan Reuters dat het hard samenwerkt met cloud service providers en dat de omstandigheden normaal en zoals verwacht zijn. Suggererend dat het niet abnormaal is dat het ontwerp wordt aangepast om dergelijke problemen te voorkomen.
De obstakels brengen op hun beurt ook kopzorgen voor een aantal grote cloud- en AI-spelers. Nvidia is als belangrijkste leverancier van AI-chips een cruciale partner voor spelers die op dit moment datacenters willen opstarten specifiek voor kunstmatige intelligentie (Meta, Microsoft, OpenAI, Google…). Zo lang de chips niet beschikbaar zijn, kan hun rekenkracht niet worden ingezet.
Fout opgemerkt of meer nieuws? Meld het hier