Onderzoekers van Google DeepMind, die zich bezighouden met kunstmatige intelligentie (ki) hebben een computersysteem in elkaar geknutseld dat uiterst bedreven zou zijn in enkele tientallen ouderwetse computerspelletjes van Atari zoals Breakout. In veel gevallen scoorde de computer beter dan menselijke spelers, zonder het spel vooraf ‘gezien’ te hebben. De onderzoekers bouwden daarvoor een lerend systeem dat gebaseerd is op neurale netwerken en gebruik maakt van het zogeheten beloningsleren: DQN.
In theorie kunnen computers razendsnel leren, maar aan de mens hebben ze een trage leraar. Zonder de mens als leraar, het zogeheten onbegeleid leren, zijn de ki-prestaties van de computer niet veel verder gekomen het herkennen van handschriften, postcodes of van flarden van liedjes. Een jaar geleden gaf Demis Hassabis, informaticus en ex-spelontwerper, in Parijs een lezing over hoe dat beter zou kunnen. Een paar maanden daarvoor was zijn bedrijf DeepMind voor een halfmiljard dollar overgenomen door Google. Achter Hassabis werd een film afgespeeld die niet waar kon zijn. Een computer leerde zichzelf hoe hij/zij ingewikkelde spellen kon spelen zoals Breakout, waarin je met een kogel een muur moet afbreken. Na het spel onderzocht te hebben, ontwikkelde de computer strategieën die mensen zelden bedenken, zoals een gat in de muur maken om de kogel de muur van achteren te kunnen aanvallen.
Het door de onderzoekers ontwikkelde systeem DQN is een combinatie van neurale netwerken en Q-leren. De diepe neurale netwerken (de D in DQN staat voor diep) is losjes gebaseerd op hoe het zicht werkt. DQN ziet en reageert op het spel zoals mensen zouden doen: handelen en kijken wat er op het scherm gebeurt. Q-leren is een wiskundige variant van een psychologisch concept dat beloningsleren (reinformcement learning in het Engels) wordt genoemd. Psychologen denken dat leren bij mensen en dieren zo werkt. De beloning voor de speler zijn de punten die hij/zij kan winnen. Om dat systeem uit te proberen lieten de onderzoekers hun systeem los op 49 klassieke Atari-2600-spellen uit de jaren 80. Dat zijn volgens Hassabis niet te makkelijke en niet te moeilijke spellen. Ze gaven DQN twee weken per spel op een een gewone bureaucomputer (dus niks super).
Het was verre van zeker dat dat ging werken, maar bij ongeveer de helft van de spellen speelde DQN de menselijke spelers weg, zoals in, onder meer, Breakout, Video Pinball en Space Invaders. De volgende stap was kennisoverdracht van het ene spel naar een ander. Op basis van dit onderzoek zou je kunnen speculeren dat computers ook ingewikkelder dingen kunnen leren zoals autorijden. Het is echter alleen de vraag of een computer dat soort dingen kan leren vanuit het niets. Hoe dan ook, het lijkt er op dat het eindelijk na meer dan dertig jaar een ‘belofte’ te zijn geweest, enige schot zit in de ki.
Bron: Science