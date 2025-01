Na de verrassend gevorderde AI van DeepSeek komt ook Alibaba met een nieuw model dat beweert vergelijkbaar of beter te presteren dan ChatGPT 4o en Claude 3.5 Sonnet.

Onder de naam Qwen2.5-Max stelt Alibaba het nieuwe model voor. Het werd getraind op twintig biljoen tokens en kan momenteel zowel als een chatbot (na registratie) worden gebruikt, als in Alibaba Cloud waar je API keys kan maken die ook OpenAI-API compatibel zijn volgens Alibaba. Een open source model is niet beschikbaar.

Alibaba heeft Qwen2.5-Max door enkele benchmarks gejaagd en claimt dat het daarbij telkens beter scoort dan DeepSeek-V3, Llama-3.1-405b-Inst, GPT-4o-0806 en CLaude-3.5-Sonnet-1022.

Wel hallucinaties, geen censuur

Een korte praktijktest leert echter dat de chatbot nog erg vaak hallucinaties toont. Zo spreekt Qwen Chat desgewenst ook Nederlands of Frans, maar vragen we naar wat het weet over enkele redactieleden, dan krijgen we een tekst waar geen enkel feit van klopt. Zo zou de hoofdredacteur van Data News onder meer bijklussen als presentator van De Mol en De Slimste Mens Ter Wereld.

Vragen we verder naar enkele lokale beroemdheden dan duiken daar ook talloze onwaarheden in op. Vragen we naar meer internationaal bekende mensen, dan lijkt het antwoord correcter.

Opmerkelijk: waar DeepSeek deze week al snel de kritiek kreeg dat het onderwerpen censureert wanneer die te gevoelig liggen in China, lijkt Alibaba dat niet te doen. Vragen we naar het Tiennamenplein, dan vermeldt Alibaba dat daar een studentenprotest gewelddadig is neergeslaan.

Ook een paar andere Chinese gevoeligheden worden gewoon meegedeeld, zelfs met de vermelding dat de Chinese overheid de zaken censureert. Of de chatbot ook binnen China zulke antwoorden geeft is niet bekend. Daar tegenover staat dan weer wel dat vragen naar seksuele inhoud of hoe je een brandbom maakt, uit de weg worden gegaan.