Schotse Wikipedia grotendeels geschreven door iemand die geen Schots kent

Een demonstrant in het Schotse Glasgow op 2 november 2019.
Els Bellens
Els Bellens Technologiejournaliste bij Data News

De tienduizenden fout geschreven artikels kunnen een impact hebben op de reputatie van de taal, en de AI’s die de pagina’s gebruiken om de taal te leren.

Zowat de helft van de Schotse versie van Wikipedia blijkt geschreven door een Amerikaan die de taal niet kent. Schots, een van de officiële talen van Schotland, is een vorm van Gaelic en een West-Germaanse taal met eigen woordenschat en grammatica. De gebruiker AmaryllisGardener interpreteerde dit echter als ‘Engels met een gek accent’ en schreef meer dan 23,000 artikels op de Schotse Wikipedia in dit brabbeltaaltje.

De gebruiker leverde bijdragen aan sco.wikipedia.org en was ook administrator van de pagina’s, met 200.000 veranderingen op de plank. Gedurende zes jaar schreef deze persoon artikels in het soort foute Schotse accent dat je vaak in films tegenkomt, maar dan in tekst, door bijvoorbeeld de letter ‘y’ te vervangen door ‘ee’.

De situatie werd aan het licht gebracht door een thread op Reddit. De pagina’s doen wat denken aan wiki’s als West-Vlams die (vermoeden we) als grap zijn opgesteld, met het grote verschil dat Schots een echte, aparte taal is met, zeker in Groot-Brittannië, nogal wat nationalistische belangen. Een volkstelling in 2011 geeft aan dat zo’n derde van de Schotten de taal nog gebruiken of minstens begrijpen.

De slechte kwaliteit van de wikipedia-pagina doet daarbij geen goed aan de reputatie van de taal. Miljoenen mensen gebruiken Wikipedia, en als ze afgaan op deze pagina’s, leren ze vooral dat Schots een soort aftandse versie is van het Engels. Het voedt zo ook argumenten dat Schots het niet verdient om gezien te worden als een aparte taal. De Redditor die de situatie eerst uitzocht heeft het over cultureel vandalisme.

Een en ander wordt nog erger wanneer je dat automatiseert. Een reeks taalalgoritmes gebruiken Wikipedia, waaronder de Schotse versie, als referentie om talen te herkennen en vertalen. Het ‘Schots’ van een Amerikaan die tikt in een gek accent en dat doet voor honderdduizenden artikels, wordt voor het internet zo gelijkgesteld met echt Schots.

Nu de fouten naar boven zijn gekomen, staat er een opruimactie gepland op de pagina’s, hopelijk deze keer door mensen die de taal kennen. Zij gaan hoe dan ook hun werk hebben om alle artikels van 2013 af te verbeteren.

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content