Universiteit Leiden

nl en

Beter dan de benchmark: een doorbraak op de deadline

Data Science & AI-student Nataliia Bagan weet wiskunde, taal en kunstmatige intelligentie op een bijzondere manier te combineren. Haar bachelorscriptie over het verbeteren van het redeneervermogen van grote taalmodellen leverde haar een nominatie op voor de Leiden Science Young Talent Award 2025.

Waarom heb je deze studie gekozen?

‘Mijn liefde voor wiskunde ontstond op de middelbare school. Ik voelde me aangetrokken tot de logica en de nauwkeurige aanpak ervan, maar wilde ook graag wat meer praktisch aan de slag. Daarom ben ik Informatica gaan doen. Ik kwalificeerde me zelfs voor de All-Ukrainian Girl’s Olympiade, al kon die vanwege de invasie van Oekraïne niet doorgaan. De oorlog dwong me naar Nederland vluchten, waar ik de bachelor Data Science & AI ontdekte. Het idee dat computers kunnen leren en redeneren zoals mensen, vond ik erg fascinerend. En dit was nog voordat AI wereldwijd populair werd met tools zoals ChatGPT. Sindsdien laat het vakgebied me niet meer los.’

Hoe kwam je op het onderwerp van je scriptie?

‘Tijdens mijn bachelor ontdekte ik Natural Language Processing (NLP): het vakgebied waarin computers menselijke taal leren begrijpen. Taalkunde is altijd een hobby van me geweest, dus het was geweldig om dat nu te kunnen combineren met mijn technische studie. Ik sloot me aan bij de groep van professor Zhaochun Ren, die onderzoek doet naar allerlei NLP-onderwerpen. Het onderwerp voor mijn scriptie ontstond omdat het me de mogelijkheid gaf NLP te combineren met mijn andere favoriete onderwerp: Reinforcement Learning, een methode waarbij modellen leren van trial & error en feedback.’

Wat heb je onderzocht en ontdekt?

‘Ik onderzocht hoe grote taalmodellen redeneren. Voor complexe vragen moeten deze modellen de vraag vaak eerst opsplitsen in kleinere deelvragen. Wetenschappers proberen altijd manieren te vinden om dit proces nauwkeuriger en efficiënter te maken. Ik heb aangetoond dat je met Reinforcement Learning, en specifiek met Monte Carlo Tree Search (MCTS, zie kader), tot betrouwbaardere antwoorden komt. Daarnaast maakte ik een vereenvoudigde methode die dezelfde sterke resultaten haalt als de veel ingewikkeldere bestaande MCTS-aanpakken.’

Hoe zit dat? Monte Carlo Tree Search (MCTS)

Monte Carlo Tree Search is een methode waarmee een computer slimme keuzes kan maken door verschillende mogelijke acties en hun gevolgen te bekijken. Het probeert veel willekeurige mogelijkheden uit, kijkt welke acties meestal tot de beste resultaten leiden, en kiest daarna de meest veelbelovende optie.

Wat was het meest bijzondere moment tijdens je scriptie?

‘In één nacht leek mijn methode achterhaald.’

‘Twee weken voor mijn deadline kwam er een nieuwe versie uit van het model dat ik als benchmark gebruikte. Die versie was ineens beter dan mijn aanpak. In één nacht leek mijn methode achterhaald. Ik wilde niet een minder goed resultaat inleveren, dus werkte ik twee weken lang keihard aan nieuwe experimenten. Drie dagen voor de deadline vond ik uiteindelijk een aanpak die het nóg beter deed. Het was ontzettend stressvol, maar het voelde geweldig om dat voor elkaar te krijgen.’

Wat zijn je plannen voor de toekomst?

‘Ik wil uiteindelijk graag professor worden. Ik geloof dat we meer onderzoekers nodig hebben die niet alleen sterk zijn in hun vak, maar ook met enthousiasme lesgeven en echt contact maken met studenten. Hen inspireren puur door met oprecht plezier les te geven. De volgende stap is een master, en daarna een PhD, om alle kennis en kunde te ontwikkelen die ik hiervoor nodig heb.’

Deze website maakt gebruik van cookies.  Meer informatie.