Wordt het dan toch waar, dat machines taal in de greep krijgen? Je zou het haast denken als je leest dat onderzoekers een tweetalig kunstmatig intelligent systeem hebben ontwikkeld dat, zonder hulp van mensen, geheel zelfstandig een nieuwe taal aanleert. De resultaten zijn nog niet om over naar huis te schrijven, maar wat niet is kan nog komen (met een zelflerend systeem).
Stel je voor dat je iemand een stoot boeken geeft in het Arabisch en Chinees en dat je hemhaar vraagt een stuk tekst van het Chinees in het Arabisch te vertalen. Onmogelijk! En toch schijnt er een systeem ontwikkeld te zijn dat juist dat doet (al heb ik grote twijfels over de kwaliteit van de vertaling). Mikel Artetxe van de Baskische universiteit in San Sebastian en collega’s schijnen dat huzarenstukje te hebben geleverd.
Opmerkelijk is dat ook een Franse onderzoeker in dienst van Facebook, Guillaume Lample, een soortgelijke prestatie heeft geflikt. Beide onderzoekers gebruikten neurale netwerken voor hun kunstmatige taalknobbels, de elektronische ‘vertalingen’ van onze hersens.
Het is nog steeds lang niet wat het moet wezen, maar de vertaaltechnologie begint eindelijk redelijke vertalingen op te leveren. Die systemen maken echter vaak gebruik van gigantische databanken met stukken vertaalde tekst. Die methode werkt acceptabel tot redelijk voor talen waarvan veel tekst voorhanden is, maar minder goed als van een taal minder geschreven taal beschikbaar is.
Leersysteem
Beide onderzoeksgroepen bouwden een systeem dat in staat is zelfstandig te leren. Ze zijn in staat woordverbindingen te ontdekken in een taal. Als het woord ‘paard’ en ‘ruiter’ vaak in elkaars buurt worden aangetroffen, dan legt het systeem een verband tussen die twee woorden. Zo maakt het een soort ‘atlas’ van een taal en gebruikt die bij de vertaling.
Beide systemen zijn niet alleen in staat afzonderlijke woorden te vertalen maar ook hele zinnen (wat me een voorwaarde lijkt voor een vertaalsysteem. Daartoe zijn twee ‘leermethodes’ gebruikt.
De eerste wordt aangeduid met terugvertaling. Dat houdt in dat van de ene in de andere taal wordt vertaald en weer terug. Als de te vertalen zin niet gelijk is aan de terugvertaalde dan wordt daar net zo lang aan gesleuteld tot dat wel zo is.
De tweede techniek wordt ontruising genoemd en berust op hetzelfde principe als terugvertalen. Bij deze techniek worden woorden toegevoegd of weggelaten in de vertaling. Combinatie van die twee technieken zouden tot de beste resultaten hebben geleid.
In beide systemen wordt er eerst een abstracte ’tekening’ gemaakt van een zin. Dat abstractievermogen van het ki-systeem zou zijn grote kracht zijn. Beide onderzoekers denken dat ze hun systemen nog kunnen verbeteren door er andere variabelen in te integreren.
Geen Chinees
Nu denk je natuurlijk dat de systemen zijn uitgeprobeerd op een vertaling Chinees/Arabisch en omgekeerd of, beter nog, Fries/Baskisch, maar dan moet ik je teleurstellen. De ‘intelligente’ systemen werden aan het werk gezet met Frans en Engels en scoorden daar allebei een 15 in. Google Translate haalde 40 en vertalers van vlees en bloed 50, dus er is nog wel wat werk te doen.
De onderzoekers denken dat hun systemen snel beter scoren als ze een paar duizend vertaalde regels mee krijgen. Dat is natuurlijk valsspelen, maar hoe je het wendt of keert, de prestatie van de onderzoekers is niet slecht.
Bron: Futura-Sciences