Met AI een speld in de corona-hooiberg vinden

Sinds de uitbraak van het coronavirus komen er opeens talloze nieuwe vragen op ons af. Wat is een veilige afstand om verspreiding tegen te gaan? Welke groepen lopen het meeste gevaar? Tegelijkertijd verschijnen er duizenden, nee, tienduizenden nieuwe artikelen en (wetenschappelijke) publicaties die trachten antwoord te geven op die vragen. Hoe bouw je een zoekmachine die de juiste kennis naar boven brengt? Onderzoekers van de Radboud Universiteit doen mee aan een internationale competitie en denken in ieder geval voor die laatste vraag een antwoord te hebben. We zijn het gewend om de hele dag door de meest willekeurige vragen stellen aan Google, Bing, DuckDuckGo of andere zoekmachines. Wat wordt het weer morgen, bijvoorbeeld. Of: overleeft mijn bromelia ook in de buitenlucht? Overwegend vragen waar het exacte antwoord doorgaans niet zó nauw komt. Maar als het over het coronavirus gaat, zul je wél precies moeten zijn. Wetenschappers over de hele wereld werken daarom mee aan TREC-COVID, een competitie en samenwerking om de beste zoekmachine te bouwen voor coronagerelateerde informatie. Zodat dokters, epidemiologen en andere geïnteresseerden relevante en actuele informatie vinden over het virus, zeker nu onze kennis daarover dagelijks aangevuld wordt. Information retrieval Arjen de Vries, Djoerd Hiemstra, Thomas Schoegje, Chris Kamphuis en Koen Dercksen vormen één van de teams die meedoen aan de competitie. De Vries en Hiemstra zijn hoogleraar bij Data Science aan de Radboud Universiteit, Schoegje is als promovendus verbonden aan de Universiteit Utrecht, Kamphuis is promovendus bij Informatica (Radboud Universiteit) en Dercksen bij het AI for Health-lab van het Radboudumc. Buiten de coronacrisis om ontwikkelen deze ‘data scientists’ ook al intelligente, geautomatiseerde zoekoplossingen om grote hoeveelheden informatie beter doorzoekbaar te maken. Binnen dit vakgebied van ‘information retrieval’ draait het om het continu aanscherpen van zoekmethodes om de computer steeds beter te leren om relevante resultaten aan te bieden. Binnen TREC-COVID, een project waar meer dan vijftig teams wereldwijd aan meedoen, is begin april een eerste database van ruim vijftigduizend coronagerelateerde teksten vrijgegeven. Vervolgens is het aan de teams om de beste resultaten naar boven te halen voor enkele vooraf geformuleerde onderwerpen en hulpvragen. Dat moet bovendien allemaal geautomatiseerd worden, want wekelijks komen er honderden nieuwe en potentieel relevante artikelen bij. Arjen de Vries: ‘Het is ontzettend lastig, want in feite zijn zowel de vragen die gesteld worden en de antwoorden die beschikbaar zijn continu aan het veranderen. Dat is niet handmatig bij te houden.’ Beste bron achterhalen Doorgaans leunen zoekmachines zoals Google op eindeloos veel datapunten om te bepalen wat de beste resultaten en pagina’s zijn. Wordt een pagina veel genoemd en geciteerd door andere sites, dan wordt dat gezien als een signaal dat het een waardevolle bron is. ‘Dat is lastig bij het coronavirus, want we zitten nu bovenop de kennisopbouw. Een veel geciteerd, ouder verhaal uit januari is niet direct relevant voor de kennis die we nu hebben’, legt De Vries uit. En welke van die duizend nieuwe teksten per week is dan wel het relevantst? Bovendien heeft iedere vraag een andere context, afhankelijk van de persoon die hem stelt. Een huisarts wil direct advies voor zijn patiënten, terwijl een RIVM-medewerker mogelijk zoekt naar bredere inzichten voor grote groepen. Het team zegt voor dat laatste probleem alvast een eerste oplossing te hebben die haast bij toeval boven water kwam. Thomas Schoegje werkt momenteel aan een zoekmachine voor de medewerkers van de gemeente Utrecht, en plande daarvoor een optie om de resultaten nadrukkelijk aan de achtergrond van de vraagsteller aan te passen. ‘Een raadslid heeft immers andere vragen dan een ambtenaar’, aldus Schoegje. ‘Toen we met TREC-COVID aan de slag gingen, viel me ook direct op hoe breed het is. Je hebt de maatschappelijke kant, de ethische kant, ga zo maar door. Er wordt zo veel geschreven maar iedere onderzoeker of arts of journalist wil weer iets anders weten. Daarom leek het ons al gauw een goed idee om ook hier de zoekmachine aan te passen aan de werktaken.’ ‘De resultaten worden in onze zoekmachine aangepast aan het interessegebied van de vraagsteller. Voor nu zouden gebruikers die selectie handmatig moeten maken, maar ook dat willen we automatiseren', legt Schoegje uit. Daar werkt ook Koen Dercksen aan mee. Hij kijkt naar manieren om de terminologie van de vraagsteller en de doorzochte teksten slim aan elkaar te koppelen. ‘Met bestaande tools kunnen we automatisch tekst en termen taggen. Die tools kijken naar de woordkeuze en gebruiken taalkundige kennis om iets aan een bepaald subdomein te koppelen. Herkent het systeem bijvoorbeeld een epidemiologische vraagstelling, dan worden er meer resultaten getoond die relevant zijn voor epidemiologen.’ Elke uitslag is winst TREC-COVID bestaat in totaal uit vijf rondes, waarvan de eerste eind april werd afgerond. Alle ingezonden resultaten worden door een jury bekeken en beoordeeld. Die jury bestaat uit medische professionals, die keuren hoe relevant de resultaten zijn. Alle inzendingen zijn ondertussen inzichtelijk voor de andere teams, zodat iedereen op basis daarvan met nieuwe inzichten aan de slag kan in de volgende ronde. De eerste resultaten hebben het team meteen al ideeën gegeven voor nieuwe oplossingen, volgens de Vries. ‘Tot nu toe indexeren we alles op artikelniveau, maar het lijkt erop dat het slimmer is om dat op paragraafniveau te doen. Dan kun je relevante onderdelen er beter uitlichten en slimmer antwoord geven op een vraag. Deze wedstrijd loopt nog wel even, maar de tussentijdse resultaten zijn al meer dan relevant genoeg om direct toe te passen.’ De onderzoekers verwachten ook na het coronatijdperk nog veel profijt te hebben van het werk dat ze nu doen. Dat is vooral te danken aan het beoordelingsproces, waarbij medische professionals naar de resultaten die uit de zoekmachines komen kijken. Zoals Schoegje opmerkt: ‘Bij mijn onderzoek in Utrecht hebben raadsleden lang niet altijd tijd om te helpen met het beoordelen van de resultaten. Nu geven de medische professionals, het publiek waar we op mikken, na elke ronde advies en feedback. Zo concreet is het advies zelden.’ Om de winst gaat het De Vries en zijn collega’s dan ook niet. ‘Het is een ongekende schaal voor dit soort onderzoek: veel relevante data, veel teams, en we kunnen allemaal leren van elkaars inzichten. Iedere ronde kunnen we de resultaten van andere teams analyseren en op basis daarvan ons werk weer verbeteren. De competitie winnen is leuk, maar de kennis die we opdoen is op zichzelf ook al een enorme winst.’ Bron afbeelding: Pexels