Talen redden in Afrika die het westen veronachtzaamd

Computervertalen werkt steeds beter, maar dan moet je wel een taal nemen die hoog scoort in de digitale (lees internet) hiërarchie. Als je Yoruba (30 miljoen sprekers), Igbo (18 miljoen sprekers) of een andere veel gebruikte taal in Afrika spreekt dan gaat dat vertalen nogal eens goed fout. Tijd voor actie, vindt Vukosi Marivate van de universiteit van Pretoria (ZdAf). “Als een machine jouw taal niet begrijpt lijkt het alsof die niet bestaat” zegt Marivate hoofd informatica aan de vooravond van een videovergadering van ki-onderzoekers.
De grote techbedrijven zijn vrijwel alle Amerikaans. Die zorgen ervoor dat hun technologie goed werk in de rijkste markten (een punt dat ook doorwerkt bij het bestrijden van vals nieuws). Marivat maakt deel uit van de Masakhanegroep van Afrikaanse onderzoekers die dat willen veranderen. Een van hun aandachtspunten zijn de vertaalmachines. Het bleek dat die niet in staat waren verhalen over corona van het Engels goed te vertalen in verschillende Afrikaanse talen.
Marivate: “De meeste mensen willen op de informatiesnelweg hun eigen taal gebruiken.” De groep wil dat probleem aanpakken met een vorm van kunstmatige intelligentie die wordt aangeduid met natuurlijke taalverwerking. Dat is het grootste van een aantal projecten die zijn begonnen over de hele, veronachtzaamde (taal)wereld, van de Andes tot Sri Lanka.
Vertaaltoeps zijn er in tal van taalcombinaties, maar de makers besteden lang niet altijd genoeg aandacht aan de nuances die in een taal een wereld van verschil kunnen betekenen. Deel van het probleem is dat van veel talen te weinig op het web beschikbaar is voor ki-systemen om al lerende beter te worden.

Duivel

Zo wist Google het een paar jaar geleden voor elkaar te krijgen de Yuruba-gemeenschap te ergeren door Esu, in die taal een goedwillende god, met ‘duivel’ te vertalen. De vertaalmissers van Fecebook hebben geleid tot politieke vetes over de hele wereld, maar ook tot het missen van nepnieuws over corona-vaccins. Vaak worden die armzalige vertalingen gebruikt als bron van vermaak.

Omolewa Adedipe tikte ooit in het Yoruba T’Ílù ò bà dùn, T’Ílù ò bà t’òrò. Èyin l’ęmò bí ę şe şé. Dat betekent: Als een land niet vredig is of prettig, dan ben jij daar verantwoordelijk voor. Twitter maakte er van: Als je niet gelukkig bent, ben je niet gelukkig. In Yoruba geven die accenten de toon aan en daarmee de betekenis. Zo betekent Ogun ‘oorlog’, maar dat woord kan ook een staat in Nigeria zijn (Ògùn), god van ijzer (Ògún), steken (Ógún), twintig of eigenschap (Ogún).
“Dat vooroordeel is deel verklaarbaar uit onze historie”, zegt Marivate. Hij heeft zijn ki-onderzoek deel gericht op het talenprobleem. Hij en zijn familieleden spreken Xitsonga en Setswana. “Afrika heeft een geschiedenis van kolonialisering. Als er al vertaald werd, dan werd dat slecht gedaan. Je mocht geen algemene tekst schrijven in een andere taal (dan die van de kolonisator; as) omdat de koloniale macht dan ongerust werd of er niet over opstanden geschreven zou worden. Religieuze teksten waren wel toegestaan.”
Google en Microsoft zeggen wat aan dat probleem te willen doen, maar dat dat lastig is omdat van die miskende talen te weinig bronnen zijn voor ki-systemen. Meta, moedermaatschappij van Faceboek, zou een belangrijke doorbraak hebben bereikt op weg naar de universele vertaler die voor de weinig-bronnen-talen een uitkomst zou bieden.

Dat zou een grote stap vooruit zijn, maar het probleem is dat alleen grote bedrijven met een groot ki-lab dergelijke uitgebreide modellen kunnen bouwen, stelt Ifeoluwa Adelani, van de universiteit van Saarland (D) en lid van Masakhane. De systemen verbeteren vergt niet alleen meer bronnen/gegevens maar ook menselijk toezicht door moedertaalsprekers. Die vereisen ook grote rekenkracht die voor onafhankelijke onderzoekers niet haalbaar kan zijn.

Het lijkt er op dat steeds meer mensen werken aan eigen ontwikkelingen en niet afwachten wat de ‘groten’ er van willen maken, stelt Damián Blasi. Hij houdt zich bij Harvard bezig met taalkundige verscheidenheid. Hij heeft onlangs mede een onderzoek gedaan naar de ongelijke ontwikkeling van de taaltechnologie voor de 6000 talen op de wereld. Hoewel het Nederlands en Swahili elk enkele tientallen miljoenen moedertaalsprekers hebben zijn er in het Nederlands honderden artikelen over taalverwerking geschreven en maar twintig in het Swahili.

Bron: ABC News

Geleerd uitschot

Over wetenschap en ander vermaak

Duivel

Geef een reactie