Statistiek is en blijft een groot probleem. De wetenschap kan niet zonder, maar uit nogal wat onderzoek blijkt dat onderzoekers daar vaak slecht mee uit de voeten kunnen, waardoor conclusies worden getrokken die niet getrokken mogen worden. Statisticus Brady West van de universiteit van Michigan is met medeonderzoekers eens gaan kijken hoe dat zit bij meta-analyses (een onderzoek van verschillende samenhangende studies) en zij hadden geen vrolijke boodschap: erg deugde niet zo erg veel van. Als je weet dat het hier om gezondheidsonderzoek gaat dan word je nog een beetje droeviger.
Meta-analyses zijn uiterst nuttig. In aanleg kunnen ze meehelpen de juiste beslissingen op beleidsniveau te nemen, bijvoorbeeld in de gezondheidszorg. Dan moet het rekenwerk natuurlijk wel kloppen en daar begint het probleem.
West had al langer het vermoeden dat er bij het trekken van conclusies in meta-analyses nogal eens wat mis ging. “In mijn advieswerk voor organisaties en bedrijven komen er mensen bij me die zeggen: ‘Kijk, dit is mijn conclusie hoe vaak iets voorkomt in een populatie’. Dan gaat het om het voorkomen van ziektes of om voorkeuren voor een politieke partij. Ze willen dan weten hoe je die moet interpreteren. Ik vraag ze dan of ze rekening hebben gehouden met de gewichtsfactoren in de analysegegevens of met de steekproefopzet en in 90% van de gevallen hebben ze dan geen idee waar je het over hebt. Ze hebben zich de basisprincipes van statistiek uit de introductiecursus nog niet eens eigen gemaakt.”
Schokkend
Hij wilde wel eens weten hoe groot het probleem was. Daar is weinig literatuur over en dus ging hij met zijn collega’s Joseph Sakshaug en Guy Aurelien aan de slag. Ze verzamelden 250 artikelen, rapporten en presentaties (alle op het web beschikbaar) met secundaire analyses van bevolkingsonderzoek. West en zijn collega’s schrokken. “Slechts de helft hield rekening met gewichtsfactoren. De invloed van de steekproefopzet op de variantieschattingen zat er vaak ver naast en er is ook geen teken dat er iets verbetert.”
Het ergste was nog dat deze misstappen net zo vaak voor kwam in de vakbladen die werken met beoordelaars als in technische rapporten en presentaties. West: “Dat was voor mij het schokkendst. De beoordelaars haalden die fouten er niet uit.”
Waar zulke misrekeningen toe kunnen leiden als je een schatting wilt maken, maar de gewichtsfactoren in het bevolkingsonderzoek niet meeneemt maakt het voorbeeld van een onderzoek naar afgestudeerden uit 2010 (NSCG) pijnlijk duidelijk. West: “Dat is een groot nationaal onderzoek en ze zeggen letterlijk dat de afgestudeerden in natuurwetenschappen en techniek is oververtegenwoordigd. Als je dat niet meeneemt en de cijfers extrapoleert dan krijg je ineens dat 55% van de bevolking een graad heeft in natuurwetenschappen of techniek.”
Hulpmiddelen
Er zijn op dit terrein hulpmiddelen genoeg, stelt West, maar het feit dat die nauwelijks gebruikt worden illustreert het probleem. “Mensen die publiceren hebben daar geen weet van. We kennen al bijna honderd jaar het belang van gewichtsfactoren in bevolkingsonderzoek, maar op de een of andere manier dringt dat niet door tot de statistiekcursussen op de universiteit. We geven een vermogen uit aan bevolkingsonderzoek en wie weet hoeveel die misrekeningen ons kosten.”
Om het probleem op te lossen helpt West mee aan de ontwikkeling van een open webcursus (MOOC) aan zijn universiteit, waarbij statistiek wordt geïntroduceerd aan de hand van de programmeertaal Python. “Voor je aan een analyse begint moet je goed begrijpen hoe de gegevens verzamelt zijn en waar ze vandaan komen.”
Bron: EurekAlert
JSM talk: http://ww2.