Veel hersenonderzoek wordt gedaan met een (veel) te klein aantal proefpersonen om wetenschappelijk zinvolle resultaten te kunnen opleveren. De meeste experimenten met maar weinig deelnemers kunnen ook niet gereproduceerd worden en berusten vooral op toevalligheden, zo blijkt uit recent onderzoek van de universiteit van de (staat) Washington.
Met allerlei technieken zoals functionele kernspintomografie (in Nederland bekender onder de Engelse afko fMRI) kunnen de activiteiten van levende hersens worden gevolgd. Dergelijke technieken worden gebruikt om er achter te komen hoe hersens werken, maar ook hoe hersenziektes ontstaan.
Dat is allemaal mooi en aardig, maar je moet bij dit soort onderzoek werken met voldoende aantallen proefpersonen om daar conclusies aan te kunnen verbinden. Dat geldt natuurlijk niet alleen voor hersenonderzoek, maar voor alle onderzoek waarbij proefpersonen worden gebruikt.
Scott Marek van de universiteit van Washington heeft daar eens naar gekeken. Directe aanleiding was een eigen onderzoek naar de representatie van geestelijke vaardigheden. “We werkten met een steekproef van duizend kinderen en vonden een belangrijk verband en dachten: Geweldig!, maar dachten ook: Kunnen we dat ook bij duizend andere kinderen aantonen?” Het bleek dat de resultaten niet reproduceerbaar waren. “Dat heeft er bij mij goed ingehakt. Duizend kinderen moesten toch genoeg zijn? We hebben ons suf gepeinsd hoe dat nu mogelijk was.”
Om erachter te komen hoe groot een zinvolle steekproef zou moeten zijn om betrouwbare resultaten op te leveren analyseerden Marek en medeonderzoekers drie grote verzamelingen met MRI-gegevens van in het totaal 50 000 proefpersonen: de UK Biobank (ruim 35 000), de Adolescent Brain Cognitive Devolopment Study (bijna 12 000) en het Humane Connectome Project (1200). Daarin probeerden ze bepaalde verbanden te leggen tussen metingen en kenmerken van de proefpersonen. Die resultaten probeerden ze met een nieuwe steekproef te reproduceren.
De gemiddelde steekproefgrootte van klassieke, ‘hersenbrede’ associatiestudies ligt op 25 deelnemers, zo stellen de onderzoekers. Als ze met dergelijke steekproefgroottes aan de gang gingen dan vonden ze vaak duidelijke associaties (ook in vergelijking met eerder onderzoek op dit terrein), maar die resultaten konden niet herhaald worden met een nieuwe kleinschalige steekproef. Pas bij aantallen van enkele duizenden deelnemers verbeterde de reproduceerbaarheid, maar werden de waargenomen effecten ook vager, minder duidelijk.
Hoe belangrijk een gevonden verband is wordt aangegeven op een schaal tussen de 0 en de 1; 0 betekent dat er geen verband is en 1 dat dat verband (zo goed als) zeker is. Wat betekenisvol is, significant zeggen onderzoekers dan, hangt af het vakgebied. In de hersenwetenschap wordt 0,2 al als sterk gezien. Veel gepubliceerde artikelen hebben het over hogere waarden.
Volgens Marek betekent dat eigenlijk al dat er iets niet kan kloppen. “In de literatuur kun je effectgroottes vinden van 0,8, maar niets in de natuur heeft zo’n effectgrootte. De correlatie tussen lengte en gewicht is 0,4, de correlatie tussen hoogte en dagtemperatuur 0,3. Dat zijn waarden die makkelijk te meten zijn en niet in de buurt van 0,8 komen. Hoe kan het dan dat de correlatie tussen twee zeer complexe zaken als hersenfunctie en depressie 0,8 bedraagt?”
0,01
Marek en de zijnen stellen dat reproduceerbare verbanden tussen hersenactiviteiten en gedrag een effectsterkte (correlatie) hebben van 0,01 en dergelijke zwakke verbanden zijn niet met kleine steekgroepen vast te stellen. “We zien bij dit soort complex onderzoek van hersens en gedrag een systeemafhankelijk en structureel probleem”, zegt medeonderzoeker Nico Dosenbach. Het gebruiken van fMRI is duur en zorgt er voor dat de steekproeven (veel) te klein zijn waarmee het bergip over het functioneren van de hersens niets opschiet, stellen de onderzoekers.
Marek en de zijnen zijn praktisch. Weinig onderzoeksgroepen zullen zich aantallen deelnemers kunnen veroorloven die in de duizenden lopen. Maak dan gebruik van grote bevolkingsonderzoeken, stellen ze voor. Dosenbach: “Voor genoomgegevens financierde de NIH in de VS de aanleg van grote gegevensverzamelingen die openlijk toegankelijk moesten zijn.” Hij denkt dat iets soortgelijks ook op het gebied van hersens zou moeten worden bewerkstelligd.
Dat zal leiden tot betrouwbaardere onderzoeksresultaten die ook echt helpen in te zien hoe (hersen)ziektes in elkaar steken en hoe we daar iets aan kunnen doen. Of dat idee ook echt opgepikt wordt moet nog worden afgewacht
Bron: bdw