Over DIRT

Het DIRT-corpus bestaat uit Nederlandstalige realityseries zoals De Mol, Chateau Meiland en Temptation Island. Dit zijn programma’s waarin niet geacteerd wordt en waarin we relatief spontaan gesproken, informeel Nederlands terugvinden.

De eerste versie van het DIRT-corpus werd gecreëerd door Ulrike Vogl en Gauthier Delaby in 2021, in het kader van een project met studenten uit het vak “Nederlandse taalkunde: het hedendaagse Nederlandse taalsysteem” en een onderzoekslijn voor bachelorstudenten Nederlands “Taalgebruik in reality-tv”. Hierbij werden afleveringen van verschillende realityseries getranscribeerd volgens een transcriptieprotocol (Ghyselen et al. 2020). Het is een corpus-in-opbouw, dat regelmatig wordt aangevuld met nieuw getranscribeerd materiaal. Het corpus wordt verrijkt met metadata: het bevat informatie over de regionale afkomst, gender, opleiding en leeftijd van de sprekers. Het bevat zowel oudere programma’s als actuele programma’s in zowel Belgisch Nederlands als ook Nederlands Nederlands.

Sinds 30 oktober 2025 is het DIRT-corpus versie 1.0 downloadbaar via Zenodo. Daarnaast is er ook een concordantieprogramma voor DIRT, de DIRT-concordancer, eveneens beschikbaar op Zenodo. De huidige versie van het DIRT-corpus bevat 350.965 woorden.

Voor uitgebreide informatie over (i) de inhoud van het corpus, (ii) hoe het corpus te doorzoeken en (iii) de geschiedenis van het corpus en het DIRT-project, zie de projectdocumentatie Over DIRTJe vindt hier bovendien een aantal relevante statistieken over de huidige versie van het DIRT-corpus (bijv. aantal programma’s & seizoenen of de verhouding Nederlands Nederlands-Belgisch Nederlands).