In mei domineerde corona de headlines, dus heeft u misschien dit nieuwtje gemist. Het nieuwsagentschap PA Media - actief in het Verenigd Koninkrijk en Ierland - zette toen 27 journalisten en redacteurs aan de deur. De reden? Eén klant van het agentschap die geen nood meer had aan journalistieke medewerkers: ' Microsoft sacks journalists to replace them with robots', kopte de krant The Guardian. Geen nood meer aan redacteurs die de nieuwskolommen van de MSN-website en de Edge-browser opvullen: kunstmatige intelligentie zal voortaan de artikels filteren, selecteren én bewerken. Verwonderd? Eigenlijk hoeft dat niet, want concurrenten als Yahoo of het persbureau AP gebruiken al jaren Wordsmith. Dat is een stukje software van Automated Insights dat zich laat omschrijven als een 'self-service natural language generation platform': een artikelrobot. Ook dichter bij huis wordt geëxperimenteerd met 'automatisch nieuws' zoals voetbalmatchverslagen op automatische piloot. Voed de machine met essentiële data als wie wanneer scoort, wie een rode kaart kreeg en wie in de laatste minuut nog inviel, en de software maakt er zelf een beknopt matchverslag van. Is dat mooie journalistiek? Verre van. Maar het is efficiënt om de lezer snel de feiten mee te geven die zij of hij weten wil.
...

In mei domineerde corona de headlines, dus heeft u misschien dit nieuwtje gemist. Het nieuwsagentschap PA Media - actief in het Verenigd Koninkrijk en Ierland - zette toen 27 journalisten en redacteurs aan de deur. De reden? Eén klant van het agentschap die geen nood meer had aan journalistieke medewerkers: ' Microsoft sacks journalists to replace them with robots', kopte de krant The Guardian. Geen nood meer aan redacteurs die de nieuwskolommen van de MSN-website en de Edge-browser opvullen: kunstmatige intelligentie zal voortaan de artikels filteren, selecteren én bewerken. Verwonderd? Eigenlijk hoeft dat niet, want concurrenten als Yahoo of het persbureau AP gebruiken al jaren Wordsmith. Dat is een stukje software van Automated Insights dat zich laat omschrijven als een 'self-service natural language generation platform': een artikelrobot. Ook dichter bij huis wordt geëxperimenteerd met 'automatisch nieuws' zoals voetbalmatchverslagen op automatische piloot. Voed de machine met essentiële data als wie wanneer scoort, wie een rode kaart kreeg en wie in de laatste minuut nog inviel, en de software maakt er zelf een beknopt matchverslag van. Is dat mooie journalistiek? Verre van. Maar het is efficiënt om de lezer snel de feiten mee te geven die zij of hij weten wil. Het zette ook onze redactie aan het denken. Op de alleszeggende website willrobotstakemyjob.com kan u nagaan of uw eigen job mogelijk bedreigd wordt door een machine of stukje software. Afhankelijk van wat we precies intikken - journalist, editor, reporter, correspondent, writer - krijgen we een percentage te zien dat varieert van pakweg 5 tot 10. Dat is de kans dat we onze C4 krijgen en vervangen worden door een robot die karakters uitspuwt in leesbare vorm en die niet draait op koffie. Het resultaat is gebaseerd op een nu misschien al gedateerde studie uit 2013 van Carl Benedikt Frey en Michael A. Osborne getiteld ' The Future of Employment: How susceptible are jobs to computerisation?' Ondertussen zijn er nog tal van andere studies uitgevoerd die in onze job al dan niet wat meer bestaansrecht zien. Maar één opmerkelijke rode draad wel: dat we ons hoe dan ook aan verregaande automatisering kunnen verwachten op relatief korte termijn. Maar staat de technologie wel ver genoeg om journalistiek te automatiseren en zelfs te vervangen? Kan een AI tool artikelen pennen die geschikt zijn voor Data News? Doet dat ding zijn - of is het haar - eigen research? Kan het dat ook in onze moedertaal, zonder dat er vertaling aan te pas komt? En zo ja, wat heb je dan precies nodig en waar begin je in hemelsnaam? In ons geval: door de ouderwetse telefoon te nemen en te bellen met mensen die wél kaas hebben gegeten van 'natural language processing' oftewel NLP. "Zullen we het anders gewoon eens proberen?", antwoordt Nicolas Deruytter van ML6. Hij is managing director bij de Gentse start-up die pas nog door onze lezers en jury bekroond werd tot Artifical Intelligence Innovator of the Year. "Het wordt meteen ook een interessant experiment voor ons", voegt hij er ietwat onheilspellend aan toe. "In het Engels gaat dit echt al vlot, maar om een artikel te genereren in het Nederlands? Dat wordt toch nog een uitdaging". Fast forward met enkele maanden naar pagina 12 in het magazine of naar de kader onderaan dit artikel: dat is hoe het eindresultaat van ons experiment er uit ziet. Oordeel vooral zelf over de kwaliteit van de automatisch gegenereerde tekst en of ondergetekende kan ophoepelen. Maar oordeel niet vooraleer u weet wat er aan vooraf ging. Dit is hoe we te werk gingen. "In de grond komt het er op neer dat je algoritmes moet gaan trainen, net zoals je een selfie-cam bijvoorbeeld kan trainen om gezichten te herkennen. Als we dat voor tekst willen gaan doen, moeten we starten van een blanco model, van een lege doos. Dat model moeten we stap voor stap gaan aanleren om tekst te genereren", vertelt Thomas Dehaene, machine learning engineer bij ML6. Thomas Dehaene: "Eigenlijk is het simpeler dan je zou denken. Stel, we pakken heel grote datasets van bijvoorbeeld miljoenen zinnen. Dan ga je het model woord voor woord tonen en vragen om een voorspelling te maken voor het volgende woord. Bijvoorbeeld een zin kan zijn: 'Kristof is de hoofdredacteur van Data News. Data News is een...' Je vraagt dan aan het model om aan te vullen. Helemaal in het begin gaat dat op niks slaan en gaat dat model pakweg 'banaan', 'huis', of 'koffie' antwoorden. De bedoeling is dat je het model dan corrigeert en bijvoorbeeld aangeeft dat 'een gespecialiseerd IT-tijdschrift' wel correct is. Je gaat dus een foutsignaal geven. Dat gaat er voor zorgen dat het model zichzelf in een bepaalde richting probeert bij te sturen, zodat het er de volgende keer dichter bij zit. Het is maar door dit ettelijke miljoenen keren te doen dat het model eindelijk een richting krijgt die goed zit. Maar om te kunnen zeggen 'kijk, dit model maakt goeie coherente en logische teksten', moet het foutsignaal dus al erg klein zijn. "Dehaene: "Het is eerder wiskundig. Inhoudelijke correctheid, dat kan niet in zo'n model. Als het inhoudelijk correct is, dan ligt dat puur aan de data die er in zit. Het is vooral wiskundige afstand die je moet bijsturen om tot goeie coherente resultaten te komen."Dehaene: "Zo'n model is eigenlijk een soort bouwdoos. Onderzoeksinstellingen zoals universiteiten maar ook pakweg Facebook en Google of OpenAI focussen zich vooral op het maken van goede modellen. Hoe is dat gestructureerd, uit wat is het opgebouwd? De meest recente goeie voorbeelden zijn zogeheten Transformer-modellen. Da's een soort basisarchitectuur met taalmodellen die zeer goed blijken te werken. Dat was een heel cool moment in de NLP-wereld, plots kwam in 2018 alles in een stroomversnelling. OpenAI kwam met een eigen variant en bracht met GPT, kort voor Generative Pre-Training, een basismodel uit. En naast een model heb je dan ook data nodig natuurlijk. Voor dit experiment gaan we beroep doen op GPT-2."Dehaene:" OpenAI is een onderzoekslabo rond AI dat als non-profit gestart is. GPT is een model, opgebouwd uit verschillende lagen: denk aan de indeling van een huis in verschillende kamers. Dat model was redelijk bescheiden, zowel in grootte als performantie. GPT-2 en GPT-3 zijn daar doorontwikkelingen van. Nu, OpenAI is Amerikaans, en in goeie Amerikaanse traditie is bigger altijd better. GPT-2 en 3 zijn modellen die veel meer lagen hebben. Waar GPT-1 bijvoorbeeld een plan voor een bescheiden bungalow is, is GPT-2 dan eerder een appartementsgebouw en is GPT-3 een wolkenkrabber. Ze hebben dus de modellen alsmaar groter gemaakt en zijn daar meer en meer data gaan inpompen. Da's allemaal niet zo baanbrekend, maar het wérkt in dit geval wel: bigger is effectief better. "Matthias Feys (CTO bij ML6): "Binnen NLP bestond vroeger alles uit aparte taken die apart uitgevoerd en opgevolgd werden. Je hebt sentimentanalyse, classificatie van teksten, extracties van bepaalde kenmerken enzovoort. Het idee van GPT-2 is om dat allemaal samen te brengen en in plaats van teksten manueel te annoteren en labels te voorzien, het unsupervised zijn gang te laten doen. Belangrijk daarbij is dat het voor het eerst ook om gigantische teksten ging. GPT-2 is een enorme verbetering bovenop de Transformer-modellen. Dit soort model kan ' out of the box' al heel wat dingen doen, zoals woorden van pakweg Frans naar Duits vertalen. Of een lang artikel samenvatten in een headline. Of een vraag beantwoorden die in de historische data terug te vinden is. En GPT-3 is in essentie nog eens een gigantische stap voorwaarts. Oorspronkelijk ging GPT-3 zelfs niet uitkomen, omdat het risico op het maken van nepnieuws te groot was."Dehaene: "Da's een heel pertinente vraag, want het brengt meteen nuance in de mogelijkheden. GPT-2 is bijvoorbeeld getraind op 8 miljoen documenten, samen 3 miljard woorden. GPT-3 is getraind op 500 miljard woorden. En al die data komt gewoon van het internet. Daar zitten heel wat mooie documenten en stukken in, waaronder heel wat coherente verhalen en artikelen uit gerenommeerde media maar evengoed ook de minder mooie aspecten van het internet. Delen van soms wel dubieuze Reddits, bepaalde fora waar een doorsnee mens zich liever niet begeeft of waar ze minder koosjer omgaan met sommige standpunten."Dehaene: "Eigenlijk weten we dat niet voor de volle 100%. De GPT-papers zijn open tot op een bepaald niveau. Wanneer je die papers bekijkt, kom je uiteindelijk toch tot op het punt waar een soort magische saus over alles heen gegoten wordt. "We hebben de data gefilterd om kwalitatiever te zijn", wordt dat bijvoorbeeld samengevat. We weten helaas niet wat ze dan precies gedaan hebben om tot een beter resultaat te komen. Wat we wel weten van mensen die toegang hebben gehad tot de brondata, is dat er wel degelijk heel wat bias en onnette aspecten in zitten. Denk dan bijvoorbeeld aan commentaren van mensen die uit fora geplukt zijn, over pakweg hun buren. In veel gevallen zijn dat positieve associaties - je kan er terecht voor een babbeltje of melk als je zelf zonder zit - maar soms zijn dat ook ronduit racistische commentaren over bijvoorbeeld hun Joodse buurman."Dehaene: "Hoofdzakelijk wel. De NLP-wereld is wat in eigen boezem aan het kijken, en dit is zeker een punt dat dan vaak naar voor komt als tekortkoming. Dat vinden wij zelf ook trouwens. Er worden honderden talen gesproken, maar het draait allemaal om Engels."Dus we gaan een GPT-model gebruiken. En dat is zoals we leerden een Engels verhaal. Maar wij willen een NL-model. Vertalen kan wel, maar dat is niet echt de bedoeling. We willen dat AI in het Nederlands schrijft. Dehaene: "We hebben verschillende pistes onderzocht. GPT-2 werkt goed in het Engels, je kan dus overwegen om dat gewoon te gebruiken maar dan in het Nederlands. Ofwel zeg je: we pakken datzelfde model from scratch, we pakken een dataset die vergelijkbaar is qua grootte, en we werken zoals OpenAI gewerkt heeft. Dat wil zeggen: gigantisch lang trainen op gigantisch veel data. Nu, dat kost om en bij de 50.000 euro. We zijn bij ML6 geen big tech, dus dat bedrag hebben we niet zomaar liggen. We hebben gelukkig wel een samenwerking met het Vlaams Supercomputer Centrum (VSC), maar dan nog. Want die 50.000 is voor één run (oftewel één volledige training van het model, nvdr.). Om tot een aanvaardbaar resultaat te komen, zijn meerdere runs nodig. Dus een veelvoud van die 50.000 euro. Ter info: als we dit in GPT-3 willen uitvoeren, spreken we over een duizelingwekkende 4,6 miljoen euro per run. En één run is dus nooit voldoende. Waarom zo duur? Veel meer woorden, meer data, en dus veel meer berekeningen die moeten gebeuren en ergens betaald moeten worden." Feys: "Je hebt een vraagstuk en je wil een antwoord: het is dan aan machine learning om het antwoord te maken. Als dat altijd zo eenvoudig was, zouden wij geen werk meer hebben (lacht). Naast parametrisatie zijn er hyperparameters die aangepast moeten worden. En daar zijn meerdere runs voor nodig. Parametrisatie zorgt er bijvoorbeeld voor dat het programma niet vastloopt na pakweg twee dagen trainen. Hyperparameters gaan het uiteindelijke resultaat verder bijsturen en zijn dus zeker ook belangrijk. Maar ook daar is na elke aanpassing dus weer een nieuwe training of run nodig."Dehaene: "Daarom hebben we beslist om het voor dit experiment over een andere boeg te gooien. We hebben geprobeerd of we het huidige GPT-2 model kunnen gebruiken. Dat is een model dat tot stand kwam met veel meer rekenkracht dan wij hier out of the box beschikbaar hebben, dus daar is zeker iets voor te zeggen. Dat Engelse model willen we finetunen voor het Nederlands. Dus we gebruiken het goeie Engelse model, jagen daar extra Nederlandse datasets door, zodat het model dat onderliggend al noties heeft van semantiek, syntax, vervoegingen en zinsopbouw kan worden ingezet met een 'Nederlands dialect' als output in plaats van een 'Engels dialect'. En dat experiment lijkt redelijk goed te lukken. Het grote voordeel is dat dit ook een pak minder geld kost. Zo één run kost maar een honderdtal euro bijvoorbeeld. Je hebt maar een paar dagen training nodig op relatief eenvoudige rekenkracht. Dat het redelijk goed lijkt te werken komt volgens ons omdat Nederlands en Engels qua taal redelijk gelijkaardig zijn in opbouw. Mochten we Hindi of Mandarijns-Chinees als output kiezen, zou dat waarschijnlijk veel minder goed werken."Dehaene: "Absoluut. Da's een heikel punt dat gemakkelijk in hype verzeild geraakt. "GPT-3 is hier, algemene intelligentie voor alles en iedereen is een feit, Skynet is realiteit", die hype dus. Wel, dat is dus niet zo. GPT-3 is dan misschien wel geavanceerder maar het is en blijft een model met heel wat getallen dat wel heel goed woorden kan genereren, maar dat zelf niet bewust is of bewust nadenkt. Het reproduceert alleen maar. Vergelijk het gerust met het ' Chinese room experiment' van John Searle. (Dat experiment probeert aan te tonen dat als een computer zich precies zou gedragen als een mens, we nog niet kunnen zeggen dat die computer ook denkt als een mens, nvdr.). Zelfstandig nadenken is hier nog niet direct aan de orde."We zijn ondertussen de eerste tekstjes aan het genereren volgens het 'autocomplete'- model. De resultaten zijn degelijk, maar eerlijk is eerlijk: we hadden het toch wat beter verwacht. Dehaene: "We zijn begonnen met het kleine Engelstalige model en hebben daar Nederlandse data en output aan toegevoegd. We hebben dat in een beperkte data-interface gestopt. Nadien hebben we een groter Engelstalig model genomen zijn we daar telkens meer Nederlandse data gaan instoppen en dan langer gaan trainen. Willen we het model nog verder verbeteren, dan moeten we op deze drie assen blijven verder werken: groter model, meer data, meer training. Hoe ver je daarin gaat, hangt af van wat de concrete use case vereist. We hopen dat wat we nu gemaakt hebben, zeker nog kan verbeteren voor andere toekomstige Nederlandstalige projecten. Eigenlijk kan je zo ver gaan als nuttig en nodig is, en zolang het budget geen rem vormt." Dehaene: "De data waarop we trainen is de zogeheten Oscar-dataset. In de NLP-wereld is alles rond Muppets gefocust, da's een beetje ons thema. En Oscar is diegene die in de vuilbak hangt, en dat is een publiek corpus van gecrawlde websites. Dus de kans is zeer reëel dat daar al een heleboel artikels van Data News in opgenomen zijn. Als je Data News artikels van in het begin mee in de data stopt, gaat de verbetering maar een druppel op een hete plaat zijn. Want wat zijn enkele honderden of duizenden artikels op een dataset van miljoenen documenten? Maar je kan ook vertrekken vanuit het Nederlandse basismodel dat we nu gemaakt hebben en dat gaan verfijnen in een bepaalde richting. Bijvoorbeeld het maken van Data News artikelen, het uitspuwen van juridische teksten of het genereren van recepten. En dat heeft meer resultaat. Je kan altijd modellen gaan finetunen om ze naar een concretere richting te sturen. Dat is wat AI en ML ook zo interessant maakt voor een bedrijf als het onze. We maken iets generalistisch en sturen het dan bij voor de richting die onze klanten en hun projecten uit gaan. "Dehaene: "Ja, dat klopt. En ergens is dat jammer. De huidige tendens is nog altijd 'bigger is better', maar in NLP beginnen de geesten wel te rijpen dat zo'n aanpak niet gaat kunnen leiden tot zeer goeie algemene kunstmatige intelligentie. Bigger is better zal niet de oplossing blijven (zie kaderstuk). Maar voorlopig, zoals het nu is, is het wel de kadans die we moeten volgen als we resultaten willen verbeteren."We begrijpen ondertussen dat we zonder extra investeringen het eindresultaat niet veel gaan kunnen verbeteren. Met enkele honderden euro's zijn de kosten gedekt om de autocomplete-tool te maken op basis van het Engelse model met Nederlandstalige getrainde data en output. Feys: "Als je echt naar een blanco model gaat en intensief gaat trainen, dan ga je dus richting veelvouden van 50.000 euro. Het resultaat zal dan ongetwijfeld beter zijn. Maar als je daar ontwikkelkosten aan toevoegt om het resultaat echt helemaal te optimaliseren, mag je daar een factor 10 aan toevoegen." Dehaene: "Dus als je ziet hoeveel sturing nog nodig is, dan kan ik je nu wel veilig zeggen dat jullie job, die van journalist, nog niet in gevaar is." Feys: (lacht) "Dat kan een use case zijn. Maar voor Data News of pakweg Knack zie ik dat plaatje toch niet goed komen. Inhoudelijk goed gestructureerde én in de feiten ook helemaal correcte stukken; dat kan een AI-model nog niet in jullie plaats. Maar voor het automatisch en kort samenvatten van bijvoorbeeld een sportmatch, puur op basis van de geregistreerde speldata, daarvoor kan het misschien wel want dat valt eerder onder procesautomatisatie. Als je iets kan doen in 2 seconden zonder er dieper over na te denken, dan is het meestal iets wat je met machine learning kan oplossen. Waar AI en ML misschien wel voor de creatieve insteek kunnen zorgen, is het opvangen van writer's block. Met een druk op de knop zorgen voor nieuwe mogelijke associaties of bruggetjes. Een beetje zoals AI niet de dokter van de toekomst zal zijn, maar hem wel zal kunnen helpen in de job." Deevid De Meyer (oprichter van AI- en deep learning specialist Brainjar): "Het is toch een stukje leugen en fantasie die we ons voorhouden dat het altijd zo gaat blijven dat AI hooguit een slimme assistent is en geen jobs gaat doen verdwijnen. Als je ziet hoe snel het de afgelopen jaren geëvolueerd is: wie weet wat een GPT-4 ons ooit allemaal gaat voorspiegelen? Misschien dat je tegen dan het huidige GPT-3 model kan gebruiken om automatisch een eerste draft te maken op basis van je interviewopname? Maar zelfs in het 'slimme assistent' scenario is je job nog niet meteen veilig. Stel dat je normaal een magazine maakt met 5 vaste journalisten. Als elk van die journalisten door zo'n slimme assistent plotseling veel sneller artikels kan afwerken, heb je dan nog wel zoveel journalisten nodig? Nee, volgens mij is het een illusie om zomaar te blijven volhouden dat AI geen jobs gaat doen verdwijnen."