Universiteit Leiden

nl en
Studentenwebsite Farmacie (MSc)
Pexels

Dit platform maakt machine learning transparanter en toegankelijker

Wat ooit begon als een PhD-project, is uitgegroeid tot een website met jaarlijks 120.000 unieke bezoekers. Met het platform OpenML wil onderzoeker Jan van Rijn bijdragen aan open science, en zo machine learning transparanter, toegankelijker en eerlijker maken.

Van klimaatonderzoek tot gedragswetenschap: machine learning (ML) speelt een steeds grotere rol in wetenschap. Onderzoekers gebruiken deze technologie om patronen te ontdekken in enorme hoeveelheden data, voorspellingen te doen of complexe processen te simuleren. Maar ondanks deze opmars blijft het lastig om ML-resultaten goed te beoordelen of te herhalen.

‘Er is geen vaste manier om data, modellen en resultaten te delen’, zegt Jan Van Rijn. ‘Dat is jammer, want als we als vakgebied serieus genomen willen worden, moeten we zorgen dat ons werk controleerbaar en herhaalbaar is.’

Wat is machine learning eigenlijk?

Machine learning is een manier waarop computers leren van voorbeelden, zoals een e-mailprogramma dat spam herkent op basis van duizenden eerdere berichten. Zo ontdekt het systeem zelf patronen, zonder dat alles handmatig geprogrammeerd is. Het werkt een beetje zoals mensen leren, maar op veel grotere schaal. Toepassingen vind je overal: van gezichtsherkenning en medische diagnoses tot Netflix-aanbevelingen.

Gedeelde werkplek voor machine learning

Om machine learning transparanter te maken, richtte Van Rijn ruim tien jaar geleden het platform OpenML op: een gedeelde digitale werkplek waar onderzoekers en studenten hun datasets, algoritmes en experimenten kunnen delen. Iedereen kan meekijken, bijdragen en leren van elkaars aanpak. Daarmee sluit het platform perfect aan op de principes van open science – wetenschap die toegankelijk, controleerbaar en herbruikbaar is.

Van Rijn en zijn mede-onderzoekers keken onlangs in een publicatie terug op tien jaar OpenML.

En daar is behoefte aan. OpenML wordt inmiddels wereldwijd gebruikt en leidde al tot zo’n 1500 wetenschappelijke publicaties. Van Rijn en zijn mede-onderzoekers keken onlangs in een publicatie terug op tien jaar OpenML. Volgens hen gebruiken onderzoekers het platform op drie manieren: om algoritmes te verbeteren, om via zogeheten meta-learning overkoepelende inzichten op te bouwen, en voor onderwijs. ‘OpenML komt veel terug in cursussen over machine learning en reproduceerbare studies’, vertelt hij.

‘Het is niet dat onderzoekers hun code niet wíllen delen’

Open werken is nog geen vanzelfsprekendheid. ‘In de wetenschap zie je dat er veel verschillende onderzoeksculturen zijn’, zegt Van Rijn. ‘Dat zorgt voor diverse perspectieven, maar ook voor een gebrek aan gedeelde standaarden. Zo’n gedeelde standaard ontwikkelen en gebruiken kost veel tijd en moeite. Het is niet dat onderzoekers hun code niet wíllen delen – het vraagt gewoon extra werk. Zelfs met een platform zoals het onze.’

Toch blijft Van Rijn vasthouden aan zijn missie. ‘Het ultieme doel is een soort Wikipedia voor machine learning. Maar dan niet alleen met tekst, ook met data, modellen en experimenten. Alles wat je nodig hebt om onderzoek te begrijpen, te herhalen en erop voort te bouwen.’

‘Het ultieme doel is een soort Wikipedia voor machine learning.’

OpenML is meer dan een platform

Hij ziet dat open science langzaam meer ingebed raakt. ‘Onze publicaties worden vaker aangehaald, dat helpt. Maar het moet ook structureel ondersteund worden. Door universiteiten én financiers. Bijvoorbeeld door als voorwaarde te stellen dat je je code en data openbaar maakt.’

OpenML is dus meer dan een platform. Het is een stap richting een wetenschappelijke cultuur waarin samenwerking, transparantie en hergebruik centraal staan. ‘Er zijn meer platforms zoals het onze’, zegt Van Rijn. ‘Ons doel is om die silo’s te doorbreken en ze met elkaar te verbinden. Zodat het delen van onderzoek nóg makkelijker wordt – voor iedereen.’

Deze website maakt gebruik van cookies.  Meer informatie.