Grote taalmodellen zouden steeds onbetrouwbaarder worden

Llama 3.1 van Meta

Logo van Llama 3.1 van Meta (moeder van, onder meer, Facebook) (afb: Meta)

Kunstmatige intelligentie is een problematisch thema. Eerder onderzoek had al aannemelijk gemaakt dat door toenemend gebruik, ki-systemen die hun ‘wijsheid’ van internet halen steeds vaker de fout in gaan. Nu stelt José Hernández Orallo van het ki-instituut VRAIN in Valencia dat grote taalmodellen zoals ChatGPT van OpenAI steeds onbetrouwbaarder worden. Zo zouden ze, bijvoorbeeld, ingewikkelde wiskundige vraagstukken kunnen oplossen maar struikelen over een simpele optelling. De hele ki-opzet lijkt op de schop te moeten.
In 2022 stelde Ilya Sutskever, medeoprichter van OpenAI dat dat probleem waarschijnlijk op den duur zou verdwijnen, maar dat is natuurlijk raar voor een techniek die nauwelijks wordt doorgrond. Hoe de meeste ki-systemen tot hun uitspraken komen is volslagen duister en dan is het natuurlijk vreemd om zoiets ongerijmds te laten verdwijnen: als je niet weet hoe iets werkt heb je natuurlijk een probleem om dat te repareren. Volgens Hernández en collega’s is de voorspelling van Sutskever vooralsnog niet uitgekomen.

Om tot die conclusie te komen onderzochten ze drie zaken die voor de betrouwbaarheid van grote taalmodellen belangrijk zijn. Zijn fouten waarschijnlijker bij thema’s die mensen als moeilijk ervaren en worden die bij eenvoudige kwesties gaandeweg minder? Een ander punt is of een ki-systeem liever geen antwoord geeft dan een foutief. Kun je een systeem stabieler maken?
Uit het onderzoek blijkt dat er sprake is van een tegenstrijdigheid met de menselijke opvatting van moeilijk. “Falen modellen waar we verwachten dat ze zullen falen?”, zegt medeonderzoeker Yael Moros Daval van VRAIN. “Uit ons onderzoek blijkt dat modellen doorgaans minder nauwkeurig zijn bij taken die mensen als moeilijk beschouwen, maar dat ze ook bij eenvoudige taken niet 100% nauwkeurig zijn. Dat betekent dat er geen ‘veilige zone’ bestaat waarin modellen perfect werken.”

De onderzoekers stellen dat de recentste modellen in feite hun prestaties aanscherpen door taken met een hoge moeilijkheidsgraad, maar niet bij taken met een lage moeilijkheidsgraad. Uit het onderzoek blijkt ook dat recente taalmodellen veel vaker onjuiste antwoorden geven dan dat ze geen antwoorden geven op taken waarvan ze niet zeker zijn.
Bovendien neemt de neiging niet toe om het geven van antwoorden te vermijden met de stijging van de moeilijkheidsgraad, anders dan bij mensen. Mensen hebben bijvoorbeeld de neiging om niet te reageren als problemen hun pet te boven gaan.
Een ander punt is of de effectiviteit van de vraagstelling beïnvloed wordt door de moeilijkheidsgraad van de vragen. De onderzoekers zagen dat aanwijzingen die goed werken bij moeilijke vraagstukken niet per se werken bij eenvoudige. Die problemen zouden volgens de onderzoekers niet kunnen worden opgelost door menselijk toezicht.

Geldig

De resultaten waren vergelijkbaar voor meerdere families van taalmodellen, waaronder de GPT-familie van OpenAI, LLaMA van Meta en BLOOM, een open ki-initiatief van de wetenschappelijke gemeenschap.

Onderzoekers hebben verder ontdekt dat de problemen zich ook blijven voordoen bij de nieuwe versies van populaire families, zoals OpenAI’s nieuwe o1 en Anthropic’s Claude-3.5-Sonnet-modellen.

De onderzoekers vinden dat er een fundamentele verandering nodig in het ontwerp en de ontwikkeling van ki, vooral voor toepassingen met een hoog risico, waarbij het voorspellen van de prestaties van taalmodellen en het opsporen van hun fouten van het grootste belang zijn. Dat lijkt mij(=as) vrij urgent nu ki steeds verder oprukt in de beslisboom (ook in de wetenschap).

Bron: Alpha Galileo

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.