Universiteit Leiden

nl en
Studentenwebsite Chemistry (MSc)

LUCL gaat aan de slag met Macroscope: ‘Eén plek vol datasets en tools’

Het LUCL werkt de komende jaren mee aan de bouw van Macroscope, een nieuwe wetenschappelijke infrastructuur die maatschappelijke verandering op populatieniveau in kaart brengt. Hoogleraren, Gijsbert Rutten, Stephan Raaijmakers en Carole Tiberius vertellen meer over het project.

Door op een veilige manier omvangrijke datasets met elkaar in verband te brengen en te analyseren, zullen dankzij Macroscope complexe sociale en culturele processen grootschalig gemonitord en onderzocht kunnen worden. Een belangrijk onderdeel van Macroscope is een breed opgezet Netherlands Media Corpus en de ontsluiting daarvan door middel van een gebruikersvriendelijke annotatie- en analyse-infrastructuur (de Text Suite). Mede door de inzet van AI-technieken zal dit tot nieuwe onderzoeksmogelijkheden leiden. Op deze manier zal Macroscope helpen om de wetenschappelijke infrastructuur van de Sociale Wetenschappen en Geesteswetenschappen te verbeteren. ‘We hadden bij geesteswetenschappen al CLARIAH’, vertelt Rutten. ‘Sociale wetenschappen had ODISSEI. Mede op verzoek van NWO zijn we in het project SSHOC-NL al gaan samenwerken. Macroscope bouwt daar nu op verder.’

Grote samenwerking

Veertien universiteiten en een aantal instituten werken samen om zoveel mogelijk datasets vanaf één plek toegankelijk te maken en met elkaar in verband te brengen. ‘We hebben de ambitie om de dynamiek in de maatschappij te interpreteren’, zegt Rutten. ‘Bij het LUCL werken we bijvoorbeeld al heel lang aan mis- en desinformatie. Die kunnen we beter volgen als we verschillende datasets kunnen koppelen.’

De bedoeling van de Macroscope is daarbij tweeledig. Enerzijds moet bestaande informatie beter beschikbaar worden, anderzijds wordt gewerkt aan nieuwe tools om deze data te onderzoeken. ‘We gaan aan de slag met generatieve AI en Large Language Models’, vertelt Raaijmakers. ‘We hebben natuurlijk al heel lang AI-tools, maar met die LLM’s kun je ook interactief over analyses converseren. Dat maakt onderzoek veel meer dialooggericht, een heel interessante ontwikkeling waarvoor we willen onderzoeken hoe je die tooling het best kunt inzetten om wetenschappelijk werk te ondersteunen. Kom je op nieuwe hypotheses? Kun je interactief onderzoek verrichten? En wat doe je met de duistere kanten van AI? We moeten een nieuw waardestelsel gaan opbouwen, waarin we verstandig omgaan met zaken als auteurschap en authenticiteit.’

Taalkundige analyse

Waar de Macroscope uiteindelijk het volledige SSH-domein moet beslaan, zal het LUCL zich vooral focussen op taalkundige analyse. Tiberius, zowel werkzaam aan de universiteit als aan het eveneens betrokken Instituut voor de Nederlandse Taal (INT) vertelt: ‘We hebben als doel om toegang tot data (inclusief gevoelige data) te regelen waar dan vervolgens allerlei analysetools op losgelaten kunnen worden, zoals topic modelling en sentiment analyse. Daarom is het INT ook betrokken bij de data-harvesting-tak van het project. Concreet  hebben we bijvoorbeeld als doel om in nauwe samenwerking met de Koninklijke Bibliotheek een workflow op te zetten voor het Netherlands Media Corpus. Allerlei data, van tekst tot spraak, video en oude websites worden dan automatisch verwerkt en toegankelijk gemaakt via één digitale onderzoeksomgeving, de Text Suite. Een deel van die data is al gedigitaliseerd, voor een ander deel van het corpus moet dat nog gebeuren.’

Rutten: ‘Het is een heel aantrekkelijk idee om over een paar jaar één plek te hebben waar taalkundigen, studenten en andere geïnteresseerden naartoe kunnen om verschillende tools toe te passen op allerlei datasets en vervolgens de output van die tools te vergelijken en te evalueren.

Deze website maakt gebruik van cookies.  Meer informatie.