Steeds vaker wordt kunstmatige intelligentie gebruikt in de genetica en de geneeskunst, maar die ontmoeting loopt niet altijd goed af, waarschuwen onderzoekers. Dan kunnen er verkeerde verbanden worden gelegd tussen genen en fysieke kenmerken en/of ziektes.
Het lijkt mooi om ki-systemen verbanden te laten zoeken tussen genen en fysieke kenmerken of ziektes. Het lijkt dan vooral handig om mutaties in genen aan ziektes of fysieke kenmerken te kunnen koppelen. Ki zou zo’n speurtocht versnellen.
Genetica speelt een rol bij de ontwikkeling van veel gezondheidsproblemen. Hoewel veranderingen in sommige individuele genen direct verband houden met een verhoogd risico op ziekten zoals cystische fibrose, is de relatie tussen genetica en fysieke eigenschappen vaak ingewikkelder.
Dergelijk genoombreed onderzoek heeft geholpen om een aantal van deze puzzels te ontwarren, vaak met behulp van grote databanken van genetische profielen en gezondheidskenmerken van individuen zoals de UK Biobank. Deze databanken missen echter vaak gegevens over gezondheidsproblemen die onderzoekers proberen te bestuderen.
“Sommige kenmerken zijn ofwel erg duur of erg arbeidsintensief om te meten, dus je hebt gewoon niet genoeg monsters om zinvolle statistische conclusies te trekken over hun verband met genetica,” zegt Qiongshi Lu, universitair hoofddocent van de universiteit van Wisconsin en expert op het gebied van genoombrede verbandstudies. “Het is de laatste jaren erg populair geworden om daarbij machineleren te gebruiken, dus we hebben nu deze geavanceerde ki-modellen die onderzoekers gebruiken om complexe eigenschappen en ziekterisico’s te voorspellen met zelfs beperkte gegevens.”
Gevaarlijk
Lu en zijn collega’s hebben aangetoond hoe gevaarlijk het is om op deze modellen te vertrouwen zonder ook te waken voor vooroordelen die ze kunnen introduceren. De onderzoekers laten zien dat een veelvoorkomend type ki-algoritme dat wordt gebruikt in genoomwijde verbandsstudies, ten onrechte verschillende genetische variaties kan koppelen aan het risico van een individu om type 2-diabetes te ontwikkelen. Lu: “Het probleem is dat als je het door ki-systemen voorspelde diabetesrisico vertrouwt als het werkelijke risico, je zou denken dat al die genetische variaties gecorreleerd zijn met diabetes, ook al zijn ze dat niet.”
Deze valspositieve resultaten zijn niet beperkt tot deze specifieke variaties en het diabetesrisico, stelt hij, maar vormen een wijdverbreide vooringenomenheid in door ki ondersteunde studies. Onderzoekers dienen hun ziel en zaligheid niet te leggen in de ‘handen’ van ki-sytemen, vinden de onderzoekers. Onderzoekers die zich van ki bedienen zullen statistische methodes moeten gebruiken om de betrouwbaarheid van de uitkomsten van ki-systemen te toetsen.
Hoewel de voorgestelde statistische methode van de groep de nauwkeurigheid van ki-ondersteunde studies zou kunnen helpen verbeteren, hebben Lu en zijn collega’s onlangs ook problemen gevonden met soortgelijke studies die datahiaten opvullen met afgeleide informatie in plaats van algoritmen.
Alzheimer
In een ander nog te publiceren artikel dat in Nature Genetics verschijnt, luiden de onderzoekers de noodklok over studies die te veel vertrouwen op wat zij proxy-informatie (afgeleide? as) noemen, in een poging om verbanden te leggen tussen genetica en bepaalde ziekten. Grote gezondheidsdatabanken zoals de UK Biobank bevatten bijvoorbeeld een hoop genetische informatie over grote populaties, maar ze hebben niet veel gegevens over de incidentie van ziekten die vaak later in het leven opduiken, zoals de meeste neurodegeneratieve ziekten. Specifiek voor de ziekte van Alzheimer hebben sommige onderzoekers geprobeerd die kloof te dichten met proxy-gegevens die zijn verzameld via familiegeschiedenisonderzoeken, waarbij personen de diagnose van Alzheimer van een ouder kunnen melden.
Het UW-Madison-team ontdekte dat dergelijke proxy-informatiestudies zeer misleidende genetische verbanden kunnen opleveren tussen het risico op Alzheimer en hogere cognitieve vermogens. Lu: “Tegenwoordig werken genoomwetenschappers routinematig met biobankgegevens van honderdduizenden personen, maar naarmate de statistische kracht toeneemt, worden vooroordelen en de kans op fouten ook versterkt in deze enorme gegevensverzamelingen. “De recente studies van onze groep leveren bedroevende voorbeelden en benadrukken het belang van statistische nauwkeurigheid in onderzoeken op biobankschaal”, stelt Lu
Bron: Science Daily