Tokenmaxing is uit, zuinig met AI is de trend

De tijd van het blindelings verbranden van AI-tokens is voorbij. Grote techbedrijven realiseren zich dat een onbeperkt gebruik van kunstmatige intelligentie leidt tot torenhoge kosten en enorme ecologische schade. De omstreden trend 'tokenmaxing' maakt in rap tempo plaats voor een volwassen tegenbeweging: tokenminimizing. Bedrijven kiezen weer voor efficiëntie en doelgerichtheid.

De valkuil van tokenmaxing

Nvidia-topman Jensen Huang deed onlangs een opmerkelijke uitspraak tijdens een conferentie in Silicon Valley. Hij stelde dat een ingenieur met een salaris van een half miljoen dollar minstens de helft daarvan aan AI-tokens moet verbruiken. Huang ziet dit extreme verbruik als een directe graadmeter voor menselijke productiviteit. Deze filosofie staat in de techwereld inmiddels bekend als 'tokenmaxing'.

Het is een uiterst gevaarlijke en kortzichtige denkwijze. Het meten van productiviteit aan de hand van pure tokenconsumptie is net zo onzinnig als een programmeur afrekenen op het aantal geschreven regels code of het aantal opgeloste softwarefouten. Het creëert een perverse prikkel. Het stimuleert werknemers om bewust inefficiënte processen op te zetten puur om hun onofficiële quota te halen. Werknemers lieten AI-assistenten routinematig overbodige code genereren om interne ranglijsten te beklimmen.

Dit fenomeen illustreert de bekende wet van Goodhart perfect. Zodra een meetinstrument een doel op zich wordt, verliest het direct zijn waarde. Het resultaat op de werkvloer was een explosie van nutteloze data en torenhoge rekeningen. Bedrijven zagen hun softwarekosten verdrievoudigen zonder enige meetbare stijging in daadwerkelijke output of innovatiekracht.

Nvidia profiteert uiteraard direct van deze verspilling. Het bedrijf verkoopt immers de peperdure hardware die nodig is om al deze overbodige tokens te genereren.

De financiële kater in de techsector

De ongeremde consumptie van tokens leidde al snel tot een ongekende financiële kater. Grote techbedrijven schrokken zich wezenloos van de maandelijkse facturen van hun AI-leveranciers. Een enkele gebruiker bij het bedrijf Anthropic wist in één maand tijd voor 150.000 dollar aan tokens te verbranden via de programmeertool Claude Code.

Vervoersbedrijf Uber verbruikte zijn volledige AI-budget voor het gehele jaar 2026 al in de maand april. Dit dwong het bedrijf om per direct harde limieten in te stellen. Medewerkers van Uber mogen nu maximaal 1.500 dollar per maand per tool uitgeven. Ook giganten als Meta en Walmart grepen ongekend hard in. Zij ontmantelden hun interne ranglijsten voor AI-gebruik onmiddellijk en stapten over op strikte kostenbeheersing.

Deze abrupte omschakeling markeert het definitieve einde van het tokenmaxing-tijdperk. Bedrijven stappen nu massaal over op de tegenbeweging genaamd 'tokenminimizing'. Deze nieuwe bedrijfsstrategie draait volledig om efficiëntie in plaats van puur volume. Het blindstaren op gigantische, dure Amerikaanse modellen blijkt economisch volstrekt onhoudbaar. Dit geldt des te meer nu westerse experts waarschuwen voor scherp stijgende tokenprijzen zodra het goedkope durfkapitaal in Silicon Valley opdroogt.

Kies het juiste gereedschap voor de klus

Tokenminimizing vereist een fundamenteel andere en meer volwassen aanpak van kunstmatige intelligentie. Het draait in de kern om het kiezen van het juiste model voor de specifieke taak. Veel bedrijven gebruiken momenteel de zwaarste taalmodellen op de markt voor relatief simpele opdrachten. Dat is alsof je een industriële autopers gebruikt om een kleine spijker in een blok hout te drukken. Het werkt ongetwijfeld heel soepel, maar het is volstrekt over the top en extreem duur.

Een slimme IT-strategie kijkt kritisch naar de daadwerkelijke behoefte van de gebruiker. Soms is een lokaal geïnstalleerd model veel logischer en veiliger. Een lokale serveropstelling kost eenmalig ongeveer 10.000 dollar om op te zetten. Dit bedrag staat in schril contrast met de dagelijkse abonnementskosten van clouddiensten. Die cloudkosten kunnen moeiteloos oplopen tot 500 dollar per dag per ingenieur.

Vooruitstrevende bedrijven meten nu actief de efficiëntie van hun tokens in plaats van het pure verbruiksvolume. Ze sturen simpele vragen automatisch naar kleine, snelle modellen. Alleen zeer complexe, analytische vraagstukken gaan nog naar de zware systemen. Deze gerichte routering voorkomt onnodige verspilling van dure rekenkracht en beschermt het IT-budget.

Europese efficiëntie met Mistral

Een perfect voorbeeld van deze noodzakelijke efficiëntieslag is het Europese model Mistral Small 4. Dit model staat momenteel extreem hoog op de ladder van prijs-kwaliteitverhouding. Mistral Small 4 bevat in totaal 119 miljard parameters, maar activeert er slechts 6 miljard per gegenereerd woord. Dit is mogelijk dankzij een uiterst slimme architectuur. Het model levert absolute topprestaties, maar produceert aanzienlijk kortere en bondigere antwoorden dan de concurrentie. Bij complexe redeneertesten heeft Mistral Small 4 slechts 1.600 tekens nodig voor een foutloos antwoord. Vergelijkbare modellen, zoals het populaire Chinese Qwen, hebben daar bijna 6.000 tekens voor nodig. Omdat je als klant betaalt per gegenereerde token, levert deze beknoptheid direct een enorme kostenbesparing op.

Ontwikkelaars kunnen bovendien de benodigde rekenkracht per individuele vraag handmatig aanpassen. Voor een simpele tekstsamenvatting zet je de denkkracht laag. Voor ingewikkelde code zet je deze juist hoog. De groene zoekmachine Ecosia maakte onlangs de strategische overstap naar Mistral. Zij verlieten marktleider OpenAI specifiek om hun energieverbruik drastisch te verlagen. Dit praktijkvoorbeeld toont onomstotelijk aan dat kleinere, efficiënte modellen uitstekend presteren in een veeleisende productieomgeving.

De ecologische noodzaak van zuinigheid

De overstap naar tokenminimizing is niet alleen een harde financiële noodzaak voor bedrijven. Het is bovenal cruciaal voor het behoud van ons milieu. Het onbeperkt genereren van AI-tokens vreet simpelweg gigantische hoeveelheden stroom. De internationale conferentie 'Watt Matters in AI' in Eindhoven agendeert dit snelgroeiende probleem nadrukkelijk. Een recent rapport van de Verenigde Naties schetst een uiterst alarmerend beeld van de huidige situatie. Datacenters verbruikten in 2025 wereldwijd naar schatting 448 terawattuur aan elektriciteit. Kunstmatige intelligentie nam maar liefst twintig procent van dit totale verbruik voor zijn rekening. Tachtig procent van deze kostbare energie gaat op aan het simpelweg beantwoorden van dagelijkse gebruikersvragen.

Europa grijpt daarom nu in met zeer strenge regelgeving. De Europese datacentersector moet uiterlijk in 2030 volledig klimaatneutraal opereren. Grote techbedrijven moeten hun ecologische voetafdruk bovendien volledig transparant maken onder nieuwe Europese duurzaamheidswetten. Het blindelings verbranden van tokens past simpelweg niet meer in deze nieuwe realiteit. Bedrijven die hardnekkig vasthouden aan tokenmaxing lopen straks keihard tegen ecologische en wettelijke grenzen aan. Lokale overheden stellen nu al veel strengere eisen aan de vestiging van nieuwe datacenters vanwege de enorme belasting op het stroomnet.

Een tastbare impact op de autonomie

De strategische verschuiving naar tokenminimizing heeft directe en zeer positieve gevolgen voor de Europese economie en autonomie. Door bewust te kiezen voor efficiënte, open modellen worden Europese bedrijven veel minder afhankelijk van dure Amerikaanse clouddiensten. Dit versterkt onze broodnodige digitale soevereiniteit aanzienlijk. Bedrijven die succesvol overstappen op slimme modelselectie rapporteren indrukwekkende kostenbesparingen van zestig tot negentig procent.

Het Europese AI-platform Neurometric begeleidt organisaties inmiddels actief bij deze complexe overstap. Ze helpen bedrijven om hun versnipperde software-infrastructuur effectief te consolideren. De inzet van minder zware modellen betekent direct minder benodigde servers en een veel lagere operationele complexiteit voor IT-afdelingen.

De toekomst van kunstmatige intelligentie ligt absoluut niet in het bouwen van steeds grotere, stroomslurpende systemen. De winnaars van de nabije toekomst zijn de bedrijven die met minimale technologische middelen maximale zakelijke resultaten behalen. Tokenminimizing dwingt de gehele techsector om eindelijk volwassen te worden. Het verlegt de focus van brute, verspillende rekenkracht naar slimme, doelgerichte innovatie. Zuinig omgaan met kunstmatige intelligentie is dan ook geen tijdelijke trend, maar de enige financieel en ecologisch houdbare weg vooruit.