Ziek of gezond? Diagnose binnen een seconde

Stop een röntgenfoto of CT-scan in de computer en met één druk op de knop weet je of iemand bijvoorbeeld borstkanker of een oogziekte heeft. Klinkt als sciencefiction, maar in het Radboudumc experimenteren ze er volop mee. Met succes, vertelt hoogleraar Beeldanalyse Bram van Ginneken. Zijn computers al slim genoeg om dokters te assisteren? ‘Eigenlijk is het niet te verantwoorden om zulke software naast je neer te leggen.’ Onmogelijk, dacht patholoog Peter Bult eind 2017. Hij lachte de onderzoeker tegenover zich nog net niet uit. Een computer die zelfs de kleinste borstkankeruitzaaiingen herkent in een microscopisch computerbeeld? ‘Ik heb daar zelf al moeite mee, laat staan dat zo’n machine het zou kunnen.’ Toch besloot hij mee te werken aan een experimentele studie van de beeldanalysegroep in het Radboudumc. Wat bleek: de computer haalde ‘foute’ gevallen er moeiteloos uit. ‘Ik stond er echt van te kijken’, zegt Bult. ‘Geweldig, dit bespaart ontzettend veel tijd.’ Anno 2019 zijn computers net zo kundig als de gemiddelde arts, als het gaat om ziektes herkennen op röntgenfoto’s, CTscans en vergelijkbare afbeeldingen. Beeldherkenning – of eigenlijk deep learning, de techniek erachter – is de laatste vijf jaar in een stroomversnelling geraakt. Niet alleen in de medische wereld, maar overal: denk aan zelfrijdende auto’s, gezichtsherkenning en de ‘Hé Siri’functie op je iPhone. Moeten radiologen, wier werk het is om scans van patiënten te beoordelen, vrezen voor hun baan? En wat nou als die computer tóch een fout maakt? In zijn kamer in het Radboudumc legt hoogleraar Beeldanalyse Bram van Ginneken uit hoe deep learning in elkaar steekt. Al ruim twintig jaar werken hij en zijn collega’s aan beeldanalysetechnieken. Tot voor kort waren dat vooral röntgenfoto’s van de afdeling Radiologie. Maar nu breidt zijn onderzoeksgroep zich snel uit naar andere afdelingen van het ziekenhuis. Bij Pathologie bijvoorbeeld experimenteren ze met software die naar weefsel kijkt, zoals de studie in het lab van Peter Bult. Tot nu toe bekijken pathologen elk stukje weefsel handmatig onder de microscoop. Het is efficiënter én nauwkeuriger als de computer dit overneemt – vandaar het enthousiasme van de specialist. Marketingtruc Dat technieken rond beeldherkenning door computers zo booming zijn, komt vooral doordat het nu kán, zegt Van Ginneken. ‘Net als veel onderzoeksgroepen zijn wij in 2014 helemaal omgeschakeld naar deep learning. Omdat we zagen: dit werkt echt heel erg goed.’ Eigenlijk is de term deep learning een slimme marketingtruc, grijnst hij. ‘In feite gaat het om neurale netwerken bouwen, een techniek die al sinds de jaren zestig bestaat.’ Neurale netwerken werden in de jaren tachtig populair, maar raakten daarna in het slop.Geoffrey Hinton, een Canadese wetenschapper, wilde er tien jaar geleden opnieuw de aan dacht op vestigen. ‘Dat werkt natuurlijk het best als je doet alsof je iets compleet nieuws hebt gevonden: deep learning dus.’ Wetenschappers werden dertig jaar terug zo enthousiast over de techniek, omdat die vergelijkbaar is met de werking van ons brein. Miljoenen neuronen staan met elkaar in verbinding als een netwerk. Elk neuron krijgt input van allerlei andere neuronen en stuurt op zijn beurt informatie door. Het idee van neurale netwerken, of machine learning, is dat je een computer grote hoeveelheden data voert. De computer koppelt die gegevens aan elkaar. Longfoto’s, bijvoorbeeld. Die label je: dit is kanker, dit is geen kanker. Zodat de computer leert welke foto’s horen bij een ‘ziek’ lichaam. Van Ginneken: ‘Nú kunnen machines gaan denken als mensen, zeiden wetenschappers. Er werd van alles beloofd.’ Maar dat viel tegen. Lange tijd kregen onderzoekers het niet voor elkaar om baanbrekende resultaten te boeken. De computers waren te langzaam en grote datasets om de netwerken te trainen, waren er nog niet. Die golfbeweging van jubelend vertrouwen, gevolgd door tegenslag, loopt als een constante door de geschiedenis van kunstmatige intelligentie ofwel artificial intelligence (AI), zegt Van Ginneken. ‘Met deep learning zitten we nu op de top van zo’n curve. Ook hier zullen straks dingen tegenvallen. Dan krijg je de volgende ‘AIwinter’, zoals we dat noemen.’ Vliegtuig of hond? Vlak vóór het moment dat deep learning in 2012 doorbrak, kende de kunstmatige intelligentie ook zo’n ‘winter’. Net als veel collega’s had Van Ginneken neurale netwerken terzijde geschoven; te traag, te weinig vooruitgang. ‘Natuurlijk heb je altijd een paar fanatiekelingen die ermee door blijven gaan. Die werden met de nek aangekeken, zo van: dat moet je niet serieus nemen.’ Om onderzoek vooruit te stuwen, organiseren wetenschappers in de Verenigde Staten elk jaar de ImageNetchallenge, een wedstrijd waarbij informatici elkaar uitdagen om de beste beeldherkenningssoftware te bouwen. Duizend objecten moeten worden herkend in willekeurige foto’s. De organisatie had miljoenen foto’s met de hand laten labelen, als trainingsmateriaal. Hinton, de Canadese wetenschapper die nog wél in neurale netwerken geloofde, dacht in 2012: als ik de wereld wil overtuigen van deep learning, moet ik die wedstrijd winnen. Hij droeg twee promovendi op om het grootste deep learningnetwerk tot dan toe te maken. Negen dagen duurde het trainen van dit systeem, dat de naam AlexNet kreeg. Let wel: computers wisten op dat moment nog nauwelijks een hond van een vliegtuig te onderscheiden. Rond 2010 zat de wetenschap ‘vast’ op een foutmarge van 30 procent. ‘Het was érg moeilijk om daaronder te komen’, vertelt Van Ginneken. ‘Een jaar later haalde de winnaar dan 29 procent, veel vooruitgang was er niet.’ In het ziekenhuis kon een computer bijvoorbeeld wel een plaatje van een long vol witte vlekken – foute boel – onderscheiden van een gezonde long, maar dat kan een leek na een beetje uitleg ook. ‘Dus de radioloog zei: leuk hulpmiddel, maar het voegt weinig toe.’ Maar toen gebeurde er iets wat niemand had zien aankomen. De foutmarge van AlexNet was slechts 15 procent. Dat lukte onder meer doordat de Canadese onderzoekers nieuwe, sterkere grafische kaarten gebruikten, die enorm veel berekeningen tegelijkertijd uitvoerden. ‘De wedstrijdorganisatie dacht eerst dat er iets fout was gegaan. Zo’n goede score, dat konden ze niet geloven’, grijnst Van Ginneken, ‘maar het klopte. Toen stortten zoveel mensen zich erop, dat we de paar jaar erna heel snel tot 3 procent foutmarge zijn gekomen.’ Kinderhandje Vanaf dat moment ging het snel. Van IDscans tot zelfrijdende auto’s. Eigenlijk alles waar een camera plaatjes registreert, is gebouwd op basis van deep learning. Medische toepassingen zijn niet de hoofdmoot, benadrukt Van Ginneken. Maar hij en zijn collega’s in het Radboudumc hebben wél veel baat bij de techniek. ‘Of je nu longfoto’s, CTscans van de lever, mammografieën of pathologiebeelden hebt, het werkt allemaal hetzelfde. Je gooit de scan in zo’n neuraal netwerk en daar is je antwoord.’ Kijk hier, zegt de hoogleraar, en hij klikt een website aan op zijn beeldscherm. Op de pagina verschijnt een röntgenfoto van een kinderhandje, eromheen allerlei getalletjes. ‘Average age: 7.1 years’, staat er. ‘We hebben een Deens bedrijf geholpen bij de ontwikkeling van software om skeletleeftijd te meten. Groeit een kind snel of juist langzaam, dan wil je weten hoe ver het is uitgegroeid, zodat je eventueel groeiremmers of hormonen kunt geven. In ons ziekenhuis beoordelen radiologen jaarlijks vierhonderd van deze foto’s. Nu doet de soft ware dat, voor een paar euro per stuk.’ Grenzen Wat moeten we met het ethische vraagstuk dat ook speelt bij zelfrijdende auto’s: wie is verantwoordelijk als de computer een fout maakt? Van Ginneken draait die kwestie graag om. ‘Ja, de computer maakt weleens een fout, maar we wéten dat artsen veel over het hoofd zien. Sterker nog, uit onze studies blijkt keer op keer een enorm verschil in kwaliteit van dokters. Het is niet zo dat alle specialisten ongeveer 87 procent goed hebben. Dat varieert van 95 tot 60 procent. Nou, als ik patiënt ben, hoop ik niet dat ik die 60 procentarts krijg.’ De computer daarentegen, levert constante kwaliteit – en die wordt steeds beter. ‘Dat maakt dat ik denk: het is als radioloog niet te verantwoorden om zulke software naast je neer te leggen. Wel roept onze weg naar steeds nauwkeuriger computers een nieuwe vraag op: kúnnen we überhaupt naar nul fouten? Ik denk het niet: je kunt niet alle ziektes aflezen op een scan. Dat het algoritme de zieke mens er niet uitpikt, wil niet zeggen dat de best denkbare arts dat altijd wél kan.’ Ook betekent softwaregebruik niet dat de medisch specialist naar huis kan, benadrukt de hoogleraar. ‘De computer meet maar één ding tegelijkertijd, bijvoorbeeld: deze CTscan bevat kanker of geen kanker. Een arts doet wel duizend verschillende dingen. De specialist die ’s morgens scans beoordeelt, loopt ’s middags over de afdeling voor patiëntgesprekken of maakt een behandelplan.’ We gaan meer toe naar samenwerking tussen computer en mens; de computer filtert de massa eruit, de arts kijkt naar de bijzondere gevallen. ‘De software selecteert de beelden waarvan hij denkt: hier zit iets geks’, legt patholoog Peter Bult uit. ‘Die beelden kan ik vervolgens bekijken. Zo kost het proces me ruim de helft minder tijd.’ Databases trainen Waren artsen aanvankelijk sceptisch over wat een computer kan – getuige het verhaal van Peter Bult – de laatste tijd hoort Van Ginneken omgekeerde geluiden. ‘Joh, zeggen ze, dat doet de software wel even. Maar zo simpel is het niet. Voor elke ziekte heb je nét andere software nodig. Longfoto’s zien er anders uit dan mammogrammen. De techniek is er, maar we zijn steeds meer tijd kwijt om grote, betrouwbare datasets te maken en te trainen.’ Bovendien, zegt hij, kun je borstkankersoftware die in het ene ziekenhuis is ontwikkeld niet zomaar elders gebruiken. ‘De afdeling Pathologie kleurt stukjes weefsel met chemicaliën, zodat ze beter zichtbaar zijn onder de microscoop. In het ene ziekenhuis zijn die plaatjes paars, in het andere meer roze. Artsen zijn daaraan gewend. Maar heeft een computer geen voorbeelden gezien van lichtere plaatjes, of weet hij niet dat een stukje verdwaald darmweefsel op een slide onbelangrijk is, dan slaat hij ten onrechte alarm. Daarom moeten die databases met voorbeeldfoto’s zo groot zijn.’ Geldkwestie Hoe dan ook: de komende jaren zal het snel gaan, verwacht Van Ginneken. ‘Je ziet nu tientallen bedrijfjes ontstaan die deep learningsoftware ontwikkelen voor de medische wereld. Die kiezen natuurlijk vooral ziektes die veel voorkomen. Maak je software om een heel zeldzame aandoening te detecteren, dan haal je de investering er niet uit.’ Over investeren gesproken: verzekeraars vergoeden de software nog niet. En die moeten wél snel gaan meedoen, anders zal geen ziekenhuis de software in gebruik nemen. ‘Die skeletgroeisoftware gebruiken we op kleine schaal, dat kan het ziekenhuis nog opvangen. Maar stel dat we dit bij alle foto’s gaan doen, dan zegt onze bedrijfsleider: ho eens, wie gaat dat betalen? Pas als de computer met sommige taken de mens echt vervangt, boek je tijdwinst. Dat omslagpunt moet nog komen.’ Zelf zoekt de hoogleraar intussen naar nieuwe manieren om de wetenschap verder te brengen. ‘Beurzen om deep learningsoftware te maken, krijg je steeds moeilijker. Referenten zeggen dat trucje nu wel te kennen, wetenschappelijk is het niet meer interessant. Auto’s bouwen we ook niet aan de universiteit, dat laten we aan de industrie over. Wij moeten weer wat nieuws uitvinden – een superslimme robot die rondwandelt over de afdeling en álles kan. Best jammer, want als ik met clinici praat, willen die maar wat graag zo’n softwaresysteem.’ Patholoog Peter Bult staat in elk geval te trappelen om in zijn lab stukjes weefsel door de computer te laten beoordelen. ‘Vanaf dit jaar scannen we alle stukjes digitaal in en hopelijk volgt het computeralgoritme snel daarna. Nu ik heb gezien wat deze techniek kan, begin ik liever gisteren dan vandaag.’ Nieuw: online cursus kunstmatige intelligentie Sinds kort kan elke Nederlander een gratis online-basiscursus kunstmatige intelligentie volgen. Onderzoekers van de Radboud Universiteit bouwden mee aan het programma. ‘Kunstmatige intelligentie is al lang geen toekomstmuziek meer. Het zit verweven in alle aspecten van het dagelijks leven’, zegt initiatiefnemer Jim Stolze. De cursus bevat acht tracks en neemt in totaal vier tot vijf uur in beslag. Deelnemers krijgen na afloop een certificaat. Het programma is gebaseerd op een vergelijkbaar initiatief in Finland, aangevuld met bijdragen van Nederlandse experts. Vanuit de Radboud Universiteit werkten ethicus Pim Haselager (Donders Instituut), jurist Roel Schutgens en AI-specialist Tom Heskes mee aan de cursus. Meer informatie op www.ai-cursus.nl. Tekst: Susanne Geuze. Dit artikel verscheen eerder in Radboud Magazine. Foto door Nephron via Wikimedia.