Oprichter GPT-NL: ‘Eerste taalmodel dat voldoet aan wetgeving’

Het moet een verantwoord alternatief worden voor ChatGPT, Grok en andere taalmodellen. GPT-NL is volop in de maak. Het wordt ontwikkeld voor toepassingen door onder meer grote bedrijven en overheidsinstanties zoals het Openbaar Ministerie. Het taalmodel, dat werkt op basis van kwalitatieve en rechtmatig verkregen Nederlandse data, wordt vanaf nu ook getraind met gegevens uit de nieuwsmedia. TNO’er Selmar Smit, één van de grondleggers van GPT-NL: “Dit is de grootste mijlpaal tot nu toe.”

Hoewel large language models (LLM’s) als ChatGPT massaal gebruikt worden voor simpele taken, komt het soms ook voor dat een bedrijf of de overheid een taalmodel wil inzetten voor meer gevoelige documenten, zoals overheidsinformatie en politieverslagen. Momenteel groeien de zorgen over juridische en ethische kwesties van het gebruik van LLM’s voor dit soort taken. De meeste modellen zijn afkomstig van buitenlandse big tech, welke buiten ons toezicht en onze wetgeving opereren.

Met de komst van GPT-NL, een initiatief van non-profitorganisaties TNO, NFI en SURF, gefinancierd door RVO van het Ministerie van EZ, krijgt Nederland binnenkort een eigen taalmodel. GPT-NL is het eerste grootschalige Nederlandse AI-taalmodel dat wordt getraind op enkel rechtmatig verkregen data.

Media sluit zich aan: een wereldprimeur

De recente samenwerking met tientallen nieuwsbedrijven geeft het project een flinke duw in de goede richting. De leden van NDP Nieuwsmedia stellen een omvangrijk deel van het archief van nieuwsartikelen van meer dan 30 landelijke en regionale nieuwstitels beschikbaar om het taalmodel verder te trainen. Ook persbureau ANP heeft zich aangesloten. Het is de eerste keer dat nieuwsuitgevers op deze manier samenwerken met een organisatie die een AI-model ontwikkelt.

De verwachting is dat hiermee in één klap de hoeveelheid hoogwaardige Nederlandse data waarop het model wordt getraind, verdubbelt. Met data van deze nieuwssites krijgt het model namelijk toegang tot meer dan 20 miljard ‘tokens’ aan artikelen. Deze bestrijken thema’s als politiek, economie, zorg en wetenschap. Tokens zijn kleine tekststukken—woorden, delen daarvan, of leestekens—die AI gebruikt om taal te begrijpen.

Stefan Heijdendael, strategische adviseur AI bij NDP Nieuwsmedia: “Nederland wil een voortrekkersrol spelen in de Europese AI-race. Zo wordt er stevig geïnvesteerd in een supercomputer voor AI en wil Nederland toe naar ‘responsible AI’, waarbij je werkt met systemen die zo min mogelijk hallucineren, getraind zijn op kwaliteitsdata en rekening houden met privacy-vereisten en intellectueel eigendom. GPT-NL komt uit dat streven voort. Daarbij zijn brondata cruciaal. Een omvangrijke dataset levert daar een onmisbare bijdrage aan.”

Nieuwsartikelen voegen niet alleen taal, maar ook wereldkennis toe aan AI-modellen. Modellen als Grok en ChatGPT gebruiken deze kennis nu echter zonder toestemming en vergoeding. De archieven van nieuwsuitgevers worden massaal gescrapet zonder toestemming of vergoeding. Dat is een probleem. Heijdendael vervolgt: “Journalistiek is niet gratis. Alleen al aan salarissen van journalisten betalen onze leden €400 miljoen per jaar. Als we niet oppassen wordt de journalistiek weggeconcurreerd met het werk van onze eigen journalisten. NDP Nieuwsmedia is van mening dat AI-innovatie er niet toe mag leiden dat de nieuwsvoorziening door nieuwsorganisaties wordt vervangen door die van techbedrijven.”

Ook Smit ziet de samenwerking met nieuwsbedrijven als een mijlpaal. "Het is een echte wereldprimeur. Natuurlijk zijn er andere AI-partijen die afspraken hebben met één of twee kranten, maar wij doen dit grootschalig – met alle grote nieuwsorganisaties in Nederland. En op een manier waarbij zij een deel krijgen van onze opbrengsten."

Niet in lijn met de wetgeving

Ethisch verantwoord is het taalmodel dus zeker. Maar eerlijk is eerlijk: het niveau van GPT-4 haalt GPT-NL (nog) niet. Smit: “We mikken op iets dat vergelijkbaar is met GPT-3.5 — een paar jaar achterstand dus.” Als je een volledig nieuw systeem ontwikkelt, en niet simpelweg een kopie maakt van het internet, dan krijg je een model dat wat minder goed presteert.

Toch is het volgens Smit noodzakelijk dat het model er komt. “Eigenlijk is het best gek: grote bedrijven en overheden gebruiken nu modellen die niet in lijn zijn met onze wetgeving. Als we zouden gaan handhaven, dan zijn wij ineens zo’n beetje de enige partij die überhaupt is toegestaan op de Nederlandse markt.” Bovendien zit er een stijgende lijn in de kwaliteit van GPT-NL. “We beseffen dat je het niet redt met verantwoording alleen. Daarom kunnen grote organisaties het model zelf finetunen op hun eigen taken. Wij geloven dat je op die manier uiteindelijk op hetzelfde niveau uitkomt.”

Volgend jaar is het zover

Tot eind oktober wordt GPT-NL nog volop getraind. In deze fase leert het model simpelweg hoe taal werkt – het schrijven van zinnen, verhalen opstellen, en het herkennen van patronen. “We zijn momenteel aan het ‘babysitten’, zoals we dat zelf noemen”, zegt Smit. “We trainen het taalmodel op grote schaal, maar af en toe gaat er iets mis. Dan moeten we het systeem resetten en alles weer op gang brengen.”

Naar verwachting is die fase tegen het einde van het jaar afgerond. Daarna volgt een uitgebreide test op zogeheten guardrails: gedraagt het model zich netjes, geeft het geen ongepaste of gevaarlijke antwoorden? “Als het model die tests goed doorstaat, hopen we dat begin volgend jaar de eerste partijen kunnen testen met GPT-NL”, besluit Smit.

Ook Heijdendael hoopt dat GPT-NL straks op brede schaal wordt toegepast, waaronder in de politiek. “Als we willen dat AI toekomstbestendig is, moeten Den Haag en Brussel nu in actie komen. Bijvoorbeeld door hun eigen AI-toepassingen af te stemmen op privacy en auteursrecht. GPT-NL maakt dat binnenkort mogelijk.”

Oprichter GPT-NL: ‘Eerste taalmodel dat voldoet aan wetgeving’

Door: Elcke Vels

Media sluit zich aan: een wereldprimeur

Niet in lijn met de wetgeving

Volgend jaar is het zover