Groq wil met eigen chip LLM’s versnellen

© Getty Images/Westend61
Marc Husquinet Marc Husquinet is redacteur van Data News.

Om kunstmatige intelligentie in 2024 werkelijkheid te laten worden, moet de gegevensverwerking sneller verlopen, dachten ze bij Groq. Het bedrijf ontwierp een chip voor AI-toepassingen met large language models (LLM) die inferentie gebruiken in plaats van training.

‘2024 moet het jaar worden waarin AI werkelijkheid wordt,’ zegt Jonathan Ross, CEO en medeoprichter van Groq, wanneer we hem ontmoeten tijdens de IT Press Tour in Californië. ‘Een GPU-chip biedt echter niet voldoende kracht om een AI-toepassing te verwerken,’ voegt hij er aan toe.

Inferentie

Het basisidee achter Groq is om bij AI over te stappen van training naar inferentie. Training is traag en vereist veel verwerkingsvermogen. Inferentie, daarentegen, bestaat uit afleiden hoe we de meeste dingen die we geleerd hebben doen. Mensen hoeven bijvoorbeeld niet elke keer opnieuw te leren lezen als ze iets willen lezen. Hetzelfde geldt voor AI: het hoeft niet te leren om een gezicht, een dier of een auto te identificeren elke keer dat een gezicht, een dier of een auto, of een ander object waarvoor AI is getraind, voor een camera of verwerkingssensor langskomt.

Dit is ook het geval voor ‘large language models’, een van de meest veelbelovende inferentietoepassingen in AI. Zij zijn uiterst effectief zijn in het uitvoeren van taalgerelateerde taken, zoals vertalen, een vraag beantwoorden, discussiëren, samenvatten of inhoud genereren. Het is daarbij niet langer nodig eerst een model te trainen, wat een kostbare investering vereist.

Op deze manier versnelt inferentie de implementatie van een LLM-model aanzienlijk en geeft het ontwikkelaars de flexibiliteit die ze nodig hebben om hun architectuur aan te passen. Daarnaast biedt inferentie een grotere voorspelbaarheid en gegarandeerde prestaties in termen van debiet , latentie, nauwkeurigheid en energieverbruik.

Record

Om inferentie te implementeren, heeft Groq een specifieke chip van de nieuwe generatie ontwikkeld, gebaseerd op het werk van Google van tien jaar geleden, die een chip van het TPU-type (tensor processing unit) ontwikkelde voor AI-verwerking. Zo’n chip wordt een LPU genoemd (language processing unit) en zou tot tien keer sneller en energiezuiniger zijn dan een GPU-chip van het Nvidia-type. ‘Onze chip is beter, sneller en betaalbaarder dan een GPU-chip voor generatieve AI-taalinferentie,’ benadrukt Jonathan Ross.

Naast de LPU-chip heeft Groq een GroqRack-verwerkingscluster ontwikkeld die de kracht van 8 GroqNode-servers combineert met 64 onderling verbonden kaarten, plus een redundante node, wat resulteert in een deterministisch netwerk met zeer lage latentie en superieure prestaties. De Llama-270B-configuratie bereikte op het systeem onlangs zelfs een record van meer dan 300 tokens (stukken gegenereerde tekst) per seconde per gebruiker op Meta’s LLM.

Op dit moment heeft Groq de LPU-chip in zijn eigen datacenters geïmplementeerd, maar het bedrijf is van plan zijn aanbod op twee manieren naar de markt te brengen: ten eerste in de vorm van een bay die in een computercluster moet worden geïntegreerd, en ten tweede in een ‘Tokens-as-a-Service’-model voor opensourcetoepassingen. ‘Na het informatietijdperk komen we nu in het generatieve tijdperk dankzij tokens,’ concludeert de CEO van Groq.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content