Grootschalige wetenschappelijke infrastructuur

Onderzoeksresultaat: Sociale processen ontrafelen met data en rekenkracht

Sociaalwetenschappers hebben er een krachtig instrument bij. Door de combinatie van datasets én een supercomputer kunnen er nieuwe onderzoeksvragen worden beantwoord. ‘Het koppelen van administratieve data met gegevens uit open enquêtes is nergens anders ter wereld mogelijk.’

‘Het sociale tapijt van Nederland’, noemt Tom Emery uitvoerend directeur van ODISSEI, de dataset waarin de relaties van alle Nederlanders in kaart zijn gebracht. Wie is jouw familie en wie zijn jouw collega’s, je klasgenoten en je buren? Welke mensen staan centraal in jouw netwerk en welke staan verder van je af? In een samenwerking onder leiding van het Centraal Bureau voor de Statistiek (CBS) zijn tachtig miljoen onderlinge relaties van Nederlanders, en 16,9 miljoen knooppunten in die relaties, in kaart gebracht. Met behulp van deze netwerkanalyse is bijvoorbeeld recent onderzoek gedaan naar segregatie. Hieruit blijkt dat mensen met een hoog inkomen en zonder migratieachtergrond het meest in hun eigen sociale bubbel verkeren. Zij hebben relatief het minste contact met mensen met een andere achtergrond.

Sociale processen ontrafelen met data en rekenkracht Sociaalwetenschappers hebben er een krachtig instrument bij. Door de combinatie van datasets én een supercomputer kunnen er nieuwe onderzoeksvragen worden beantwoordt. ‘Het koppelen van administratieve data met gegevens uit open enquêtes is nergens anders ter wereld mogelijk.’

Zonder ODISSEI (Open Data Infrastructure for Social Science and Economic Innovations) was een dergelijk onderzoek niet mogelijk. De infrastructuur brengt verschillende grote databronnen samen. Denk aan feitelijke gegevens van het CBS en de Belastingdienst over onder andere inkomen, woonadres en land van herkomst. Maar ook aan meer descriptieve gegevens uit enquêtes, zoals het LISS-panel (Langlopende Internet Studies voor Sociale wetenschappen) waaraan zo’n vijfduizend mensen meedoen en dat financieel mogelijk gemaakt wordt door ODISSEI. Respondenten beantwoorden maandelijks vragen over bijvoorbeeld hun politieke voorkeur en hun houding ten aanzien van werk, sport, gezondheidszorg of onderwijs. Onderzoekers kunnen deze (geanonimiseerde) data in een streng beveiligde online omgeving inzien. Daarbovenop biedt ODISSEI veel rekenkracht, door toegang te ontsluiten tot de supercomputer Snellius van SURF. ‘In het verleden was een netwerkanalyse op zo’n grote schaal niet mogelijk, omdat we daar simpelweg de computerkracht niet voor hadden’, vertelt Emery. ‘Nu we dat wel hebben, wordt een brede waaier aan nieuw onderzoek mogelijk. We kunnen vragen beantwoorden die altijd buiten ons bereik lagen.’

De Brit Emery, die ook socioloog is aan de Erasmus Universiteit, verhuisde tien jaar geleden naar Nederland, speciaal vanwege de mogelijkheden voor sociaalwetenschappelijk onderzoek. ‘Administratieve data van het CBS zijn fantastisch omdat alle Nederlanders erin staan en ze vrij accuraat zijn. Maar ze missen informatie over bijvoorbeeld de houding, gevoelens en overtuigingen van mensen. In ODISSEI kunnen we data van open enquêtes, zoals die van het LISS-panel, koppelen. Dat is nergens anders ter wereld mogelijk.’ Het werd daarom de missie van ODISSEI om deze gegevensbronnen én rekenkracht op een veilige manier samen te brengen. Doordat de infrastructuur werd opgenomen in de Nationale Roadmap Grootschalige Wetenschappelijke Infrastructuur van NWO, kwam er in 2020 financiering om deze plannen verder te kunnen uitvoeren. Volgend jaar bestaat ODISSEI alweer tien jaar, en met duizenden gebruikers is het een populair onderzoeksinstrument voor sociale wetenschappers geworden.

AI-taalmodellen trainen
Die populariteit is deels te verklaren door de vele manieren waarop onderzoekers ODISSEI kunnen gebruiken. Zo is het op grote schaal mogelijk om door middel van spelsituaties te onderzoeken welke keuzes mensen maken in een bepaalde situatie. Vaak worden zulke onderzoeken met kleine groepen gedaan, maar dat kan nu ook met de deelnemers uit het LISS-panel, waardoor de uitkomsten meer representatief zijn voor de hele Nederlandse bevolking.

Fertiliteit beter voorspellen
Voor beleidsmakers is het nuttig om te weten hoe de fertiliteitscijfers zich ontwikkelen. Zo weten ze hoeveel woningen, kinderopvangcentra en scholen er in een regio nodig zijn, en hoeveel mensen aanspraak maken op bijvoorbeeld de kinderopvangtoeslag. ‘Voorspellingen over fertiliteit blijken zeer lastig’, vertelt Gert Stulp, universitair hoofddocent sociologie aan de Rijksuniversiteit Groningen. ‘Er is veel onderzoek naar welke variabelen mogelijk een rol spelen, maar wat wij willen toevoegen is een heel systematische analyse van variabelen die van belang kunnen zijn. Denk aan inkomen of opleidingsniveau, en zo zijn er nog wel dertigduizend variabelen.’

Om meer grip te krijgen op het voorspellen van fertiliteit, organiseerde Stulp samen met ODISSEI een data challenge, waarin hij teams van datawetenschappers en sociale wetenschappers uit binnen-en buitenland uitnodigde om de best kloppende voorspellingen te doen. Dit deden ze voor zowel gegevens van het LISS-panel als CBS-cijfers. In het LISS-panel geven respondenten bijvoorbeeld aan of zij een kinderwens hebben. De CBS-dataset bevat feitelijke gegevens over het aantal kinderen en heeft als voordeel dat hij zeer omvangrijk is.

De wedstrijd moet inzichtelijk maken welke variabelen de beste voorspellers van fertiliteit zijn en welke dataset de beste voorspellingen doet – LISS of CBS. Overigens helpt dat niet alleen om bijvoorbeeld voorzieningen en belastingen beter te kunnen plannen: ‘We willen hiermee ook meer inzicht krijgen in waarom mensen hun kinderwens uiteindelijk wel of niet realiseren. Komt dit vaker voor in bepaalde beroepsgroepen of regio’s? Als we daar meer over weten kunnen we mogelijk interventies bedenken voor mensen bij wie het niet lukt. Want je kinderwens niet kunnen vervullen is een zeer ingrijpende gebeurtenis.’

Huizencrisis blootgelegd
Door scherpere leennormen voor hypotheken, zijn koopwoningen voor starters nog onbereikbaarder geworden. De laatste jaren werden steeds meer goedkope koopwoningen door beleggers gekocht. Zij verhuren deze woningen vervolgens, waardoor veel starters in relatief dure huurwoningen terecht komen. Een vergelijkbare woning zouden ze niet kunnen kopen vanwege een te laag inkomen. Het Centraal Planbureau (CPB) onderzocht deze kwestie vorig jaar. ‘We wilden weten: hoeveel van dit soort huishoudens zijn er?
En hoe kunnen we verklaren dat er meer beleggers actief zijn?’, vertelt Emile Cammeraat, programmaleider bij het CPB. De onderzoekers maakten een computermodel, waarin ze voor alle huishoudens voorspelden in welke woning ze wonen, afhankelijk van bijvoorbeeld leeftijd en inkomen. Op basis van dat model konden ze doorrekenen wat het effect zou zijn van bepaalde beleidsmaatregelen, zoals het verder aanscherpen van leennormen of het belasten van de inkomsten van beleggers. Via ODISSEI kregen ze toegang tot de CBS-dataset. ‘De rekencapaciteit van de CBS-servers is onvoldoende om dit te kunnen schatten. Via ODISSEI hebben we gebruik gemaakt van computers met veel meer rekenkracht. Dat leverde veel nieuwe inzichten op.’

Uit het onderzoek blijkt onder andere dat in 2019 een kwart van de huurders in de vrije sector niet genoeg verdiende om een vergelijkbaar huis te kunnen kopen. Ook zagen de onderzoekers inderdaad een samenhang met de toename aan beleggers. ‘Ongeveer een vijfde van die toename kan verklaard worden door strengere leennormen’, aldus Cammeraat. Eenvoudige oplossingen zijn er echter niet. ‘Leennormen zijn bedoeld om onze economie te beschermen tegen een nieuwe bankencrisis en huishoudens tegen hypotheken die ze eigenlijk niet kunnen betalen. Maatregelen om beleggers weg te krijgen hebben ook allerlei nadelen, zoals hogere huren voor de huishoudens die blijven huren.’

Meer informatie op www.nwo.nl.

Foutmelding