Niet groter, maar slimmer: de strategie achter GPT-NL

Het was een bijzonder moment voor een deep dive in grote AI-taalmodellen. Het publiek – zo’n honderd ontwikkelaars, engineers en hackers – had net een lange dag achter de rug waarin ze AI-oplossingen bouwden voor de zorg, plantaardige eiwitten en defensie. Het diner was net verorberd, de drankjes vloeiden en de laatste pitches moesten nog komen.

Toch, toen Saskia Lensink het podium betrad op de High Tech Campus Eindhoven, leunde de zaal naar voren. Dat was niet omdat ze in Silicon Valley-achtige stijl het volgende doorbraakmodel beloofde, want dat deed ze niet. In plaats daarvan bood Lensink een nuchter, transparant verhaal over wat er daadwerkelijk komt kijken bij het bouwen van een Europees alternatief voor Big Tech en waarom dat misschien wel belangrijker is dan pure performance.

Een ander vertrekpunt

Lensink, van origine taalkundige bij TNO, begon met een simpele observatie: taaltechnologie was ooit een niche. Vandaag de dag is het onderdeel geworden van het dagelijks leven, ingebed in tools en workflows waar miljoenen mensen op vertrouwen zonder er zelfs maar bij stil te staan.

Voor TNO brengt die verschuiving verantwoordelijkheid met zich mee. Hun missie, losjes vertaald als het een beetje mooier maken van de wereld, is in AI-termen herijkt tot het bouwen van systemen die niet alleen innovatief zijn, maar ook verantwoordelijk, soeverein en concurrerend. Dat laatste woord is cruciaal. Zoals Lensink aangaf: er is weinig waarde in het ontwikkelen van een Europees alternatief als het niet aansluit bij de behoeften in de praktijk. Een soeverein model dat niemand gebruikt is per definitie irrelevant.

De case voor een Europees model

De urgentie achter GPT-NL is niet puur technisch. Ze is tegelijk geopolitiek, juridisch en maatschappelijk. Lensink wees op het groeiende aantal rechtszaken rond auteursrechtenschending, waarin content-eigenaren betwisten hoe grote taalmodellen zijn getraind op enorme hoeveelheden scraped data. Tegelijkertijd nemen zorgen over privacy toe, zeker wanneer data buiten de Europese jurisdictie wordt verwerkt of opgeslagen.

Er speelt ook een subtieler maar minstens zo belangrijk vraagstuk: controle. Als Europese organisaties volledig afhankelijk zijn van buitenlandse AI-infrastructuur, lopen ze het risico de grip te verliezen op hoe hun data wordt gebruikt en hoe uitkomsten tot stand komen. Voeg daar de opkomende risico’s van data poisoning aan toe (waarbij kwaadwillende content bewust in trainingsdatasets wordt geplaatst), en het beeld wordt nog complexer.

Tegen deze achtergrond zetten regels zoals de Europese AI Act een duidelijke richting uit voor Europa. Maar regelgeving alleen is niet genoeg, liet Lensink zien. Ze moet worden ondersteund door technologische alternatieven die die principes daadwerkelijk belichamen.

GPT-NL bouwen: focus boven schaal

Met “slechts” €13,5 miljoen aan financiering moest het GPT-NL-team vanaf het begin scherpe keuzes maken. Rechtstreeks concurreren met mondiale techgiganten op schaal was simpelweg geen optie. In plaats daarvan kozen ze voor focus.

En dus is GPT-NL geen algemeen consumentenmodel geworden, maar is het ontworpen voor professionele omgevingen waar compliance, veiligheid en betrouwbaarheid essentieel zijn. Die focus bepaalde ook de technische roadmap. Het model richt zich op kernfunctionaliteiten die breed worden gebruikt in de praktijk, zoals het samenvatten van complexe informatie, het vereenvoudigen van teksten voor verschillende doelgroepen en het effectief functioneren in retrieval-gebaseerde (RAG) systemen die externe kennis combineren met taalproductie.

Qua prestaties is de ambitie bewust pragmatisch. Het team mikt op een niveau vergelijkbaar met eerder breed gebruikte modellen, niet omdat dat het plafond is, maar omdat het voldoende is om zinvolle toepassingen mogelijk te maken. In die context wordt “goed genoeg” een strategische keuze in plaats van een beperking.

Vanaf nul trainen, met opzet

Een van de bepalende keuzes achter GPT-NL is dat het model volledig vanaf nul is getraind op de Snellius-supercomputer van SURF. Dat ging niet om het opnieuw uitvinden van het wiel, maar om volledige controle te houden over wat er in het model terechtkomt.

Door vanaf nul te beginnen, kon het team garanderen dat elk stuk data traceerbaar, valideerbaar en te verantwoorden is. De dataset zelf weerspiegelt die filosofie. Ze bestaat uit bijna twee biljoen tokens aan tekst, volgens Lensink allemaal rechtmatig verkregen. Er is uitgebreid gefilterd om gevoelige of private informatie te verwijderen, wat resulteerde in een dataset die voldoet aan de strikte Europese privacy-eisen.

Die zorgvuldige aanpak is niet onopgemerkt gebleven. Het project kreeg zelfs erkenning voor zijn privacy-first aanpak, wat aantoont dat grootschalige AI-ontwikkeling en naleving van regelgeving elkaar niet hoeven uit te sluiten. Door delen van de dataset en de onderliggende pipelines op GitHub te publiceren, omarmt het team bovendien transparantie op een manier die sterk contrasteert met veel commerciële modellen.

Een nieuw model voor data-eigendom

Als de technische keuzes achter GPT-NL opvallend zijn, is het economische model misschien nog interessanter. In een landschap waarin contentmakers zich steeds vaker verzetten tegen AI-bedrijven, heeft GPT-NL gekozen voor een samenwerkingsroute.

Nederlandse nieuwsorganisaties hebben hun data niet simpelweg overgedragen. In plaats daarvan zijn ze overeenkomsten aangegaan waarin hun bijdrage wordt gekoppeld aan toekomstige waardecreatie. Professionele gebruikers van GPT-NL betalen een licentievergoeding, waarvan een deel terugvloeit naar de dataleveranciers. Zo ontstaat een gedeelde prikkelstructuur waarin betere data leidt tot een beter model, dat op zijn beurt meer waarde genereert voor alle betrokkenen.

Wat hieruit zou moeten ontstaan, is geen eenmalig project maar een ecosysteem. Dataleveranciers, technologieontwikkelaars en eindgebruikers zijn geen losse actoren meer, maar vormen een gedeeld stelsel. Volgens Lensink is die dynamiek nu al zichtbaar, met organisaties die actief anderen aanmoedigen om zich aan te sluiten en bij te dragen.

Waar het werkt, en waar nog niet

Lensink waakte ervoor om de huidige staat van GPT-NL te overschatten. Het model presteert goed op gebieden zoals samenvatten en, mits voorzien van voldoende context, in retrieval-gebaseerde toepassingen. Tegelijkertijd vereisen taken zoals tekstvereenvoudiging nog verdere verfijning, en kan het model moeite hebben wanneer het zonder duidelijke input of structuur wordt gebruikt.

Dat is geen tekortkoming, zo verzekerde ze, maar een weerspiegeling van het beoogde gebruik. GPT-NL is niet ontworpen als een chatbot die vrij te gebruiken is voor informele interactie. Het is gebouwd voor gestructureerde, professionele omgevingen waar de kaders duidelijk zijn en de inzet hoger ligt. In die context wegen betrouwbaarheid en controle vaak zwaarder dan maximale flexibiliteit.

Dat maakt het model bijzonder relevant voor sectoren zoals overheid, financiën, zorg en defensie, waar zorgen rond datasoevereiniteit en compliance geen theoretische kwesties zijn, maar operationele realiteit.

Van Nederlands model naar Europese ambitie

Momenteel bevindt GPT-NL zich op een tussenniveau van volwassenheid, met meerdere haalbaarheidsstudies die parallel lopen in verschillende sectoren. Die samenwerkingen draaien niet alleen om het testen van technologie, maar vooral om het begrijpen van waar die echt waarde toevoegt en waar verdere ontwikkeling nodig is.

De roadmap weerspiegelt die iteratieve aanpak. Een bredere publieke release ligt in het verschiet, gevolgd door een gehoste versie die het model toegankelijker maakt. Daarna verschuift de ambitie naar een initiatief op Europese schaal, voorlopig aangeduid als GPT-EU.

Die volgende fase zal meer data, meer partners en meer capaciteiten vereisen. Maar ook iets minder tastbaars en minstens zo belangrijk: een gedeeld geloof dat Europa AI niet alleen moet reguleren, maar ook moet bouwen.

De echte les: fit for purpose

Tijdens de Q&A vatte een vraag over defensietoepassingen de essentie van het project samen. Kon GPT-NL worden aangepast voor zulke gevoelige domeinen? Lensink schrok niet van de vraag en beantwoordde hem in bredere zin. De echte waarde van GPT-NL ligt volgens haar niet in het zijn van een universeel model, maar in de mogelijkheid om het aan specifieke contexten aan te passen. Of het nu gaat om zorg, overheid of defensie, het doel is om systemen te creëren die afgestemd, gecontroleerd en in lijn zijn met de behoeften van gebruikers.

In die zin staat GPT-NL voor een verschuiving in denken. In plaats van het krachtigste model na te jagen, richt het zich op het bouwen van het meest passende model.

Een stille verschuiving in AI

Toen de sessie ten einde liep, was de sfeer in de zaal veranderd. Wat begon als een technische presentatie was iets reflectievers geworden. De vragen gingen niet langer alleen over features en prestaties, maar ook over werving (“Ja, stuur ons maar gewoon je sollicitatie”), samenwerking en langetermijnimpact.

GPT-NL zal misschien geen benchmarks domineren of Amerikaanse krantenkoppen halen, maar dat is ook niet de ambitie. Het verkent een andere weg: een waarin vertrouwen, transparantie en aansluiting bij maatschappelijke waarden worden behandeld als kernfeatures in plaats van als bijzaak.

In een veld dat wordt gedomineerd door schaal en snelheid, lijkt die benadering misschien bescheiden. Maar in Eindhoven, laat op de avond na een lange dag hacken, voelde het vooral betekenisvol.