AI in de wiskunde: een overtuigend bewijs dat volledig onjuist is

Een met AI opgesteld wiskundig bewijs kan er zeer overtuigend en foutloos uitzien en toch volledig onjuist zijn. Hoe een taalmodel tot een antwoord komt, is bovendien vaak niet te doorgronden. Dat baart een internationale groep vooraanstaande wiskundigen zorgen. Helemaal omdat wiskunde ook de basis vormt voor maatschappelijke toepassingen. TU/e-wiskundige Jim Portegies: “Hoeveel vertrouwen willen we stellen in systemen waarvan de interne werking grotendeels ondoorzichtig is?”

Onbetrouwbare uitkomsten, ontbrekende bronvermelding, afhankelijkheid van gesloten commerciële systemen: het zijn slechts enkele gevolgen die komen kijken bij te veel leunen op AI in de wiskundetak. Geen wonder dat de internationale groep wiskundigen zich zorgen maakt over hun vakgebied. Zij roepen vakgenoten op in actie te komen en doen aanbevelingen in de Leiden Declaration on Artificial Intelligence and Mathematics. Onder de ondertekenaars bevinden zich onder meer voormalig minister van Onderwijs Robbert Dijkgraaf en Terence Tao, winnaar van de Fields medaille.

Credit: Lieke Vermeulen

Een slimme collega die er soms naast zit

AI an sich is niet het probleem, benadrukt Portegies. Zelf gebruikt hij de technologie ook. “In de dagelijkse onderzoekspraktijk wordt AI steeds vaker gebruikt als denkpartner. Niet om definitieve antwoorden te geven, maar om ideeën te verkennen.”

Onderzoekers gebruiken taalmodellen bijvoorbeeld om vermoedens te toetsen, strategieën te bespreken of nieuwe invalshoeken te vinden. In die rol kan AI volgens hem waardevol zijn. “De interactie lijkt soms op samenwerken met een collega die snel meedenkt, maar niet altijd gelijk heeft.”

Wanneer de assistent het stuur overneemt

Het risico ontstaat wanneer onderzoekers te veel vertrouwen op de uitkomsten van AI. Juist in de wiskunde, waar iedere stap controleerbaar moet zijn, kan dat problematisch worden. “De verleiding is groot om een goed geformuleerde tekst te vertrouwen”, zegt Portegies. “Terwijl juist de inhoudelijke controle essentieel blijft.”

De oorzaak ligt in de manier waarop taalmodellen werken. Ze redeneren niet zoals een wiskundige. In plaats daarvan voorspellen ze welk woord, symbool of welke formule waarschijnlijk volgt op het voorgaande. Daardoor kunnen ze teksten produceren die overtuigend ogen, maar fundamentele fouten bevatten. “Een manuscript kan er volledig geloofwaardig uitzien”, zegt Portegies. “Maar inhoudelijk klopt het niet altijd.”

Gevolgen voor de academische wereld

Die ontwikkeling heeft gevolgen voor de wetenschappelijke praktijk. Volgens Portegies neemt het aantal AI-ondersteunde manuscripten toe. Voorheen konden reviewers meer vertrouwen op de verantwoordelijkheid van auteurs voor de correctheid van hun artikel. Daardoor konden zij zich vooral richten op de kwaliteit, relevantie en wetenschappelijke waarde van het onderzoek. Als men nu zou eisen dat artikelen volledig foutloos zijn, zou een veel grondigere controle nodig zijn. In de praktijk is het echter de vraag of reviewers die extra controle ook daadwerkelijk zullen uitvoeren.

Afhankelijk van Amerikaanse techbedrijven

De opkomst van AI leidt tot een bredere discussie over technologische afhankelijkheid. Veel populaire taalmodellen zijn ontwikkeld door grote Amerikaanse technologiebedrijven, die weinig inzicht geven in hun trainingsdata, algoritmen en besluitvorming.

Dat schuurt met een belangrijk uitgangspunt van de wetenschap: transparantie. “Wetenschap draait om controleerbaarheid”, zegt Portegies. Europese universiteiten zoeken daarom steeds vaker naar alternatieven. Projecten als OpenEuroLLM werken aan open modellen waarvan trainingsdata, methoden en modelgewichten inzichtelijk zijn. Toch leunt nog steeds een groot deel van de wetenschappers op reguliere taalmodellen.

Van onderzoek naar toepassing

De afhankelijkheid van gesloten taalmodellen wordt volgens Portegies nog urgenter zodra wiskunde niet alleen in onderzoek wordt gebruikt, maar ook in maatschappelijke toepassingen. Wiskunde vormt de kern van steeds meer van die systemen — van algoritmen bij overheidsdiensten tot toepassingen in defensie en veiligheid. Portegies: “Hoeveel vertrouwen willen we stellen in systemen waarvan de interne werking grotendeels ondoorzichtig is?”

Als voorbeeld noemt Portegies het Amerikaanse technologiebedrijf Palantir Technologies. Het bedrijf ontwikkelt software die grote hoeveelheden data uit uiteenlopende bronnen combineert en analyseert, en wordt wereldwijd gebruikt door onder meer overheden, defensieorganisaties en veiligheidsdiensten.

Ook in Nederland is de inzet van dergelijke systemen onderwerp van discussie geworden. Zo werd recentelijk bekend dat het ministerie van Defensie binnen enkele jaren wil stoppen met het gebruik van Palantir-software en zoekt naar een Europees alternatief. Aanleiding: zorgen over afhankelijkheid van een buitenlands bedrijf en de mate waarin gevoelige informatie binnen zulke systemen nog voldoende controleerbaar is.

Geen verbod, wel meer bewustzijn

De internationale groep wiskundigen pleit niet voor een verbod op AI in de wiskunde. Integendeel: ze zien de technologie als onvermijdelijk onderdeel van de wetenschappelijke praktijk. De groep doet echter wel een reeks aanbevelingen.

Centraal staat transparantie. Onderzoekers zouden duidelijk moeten zijn over wanneer en hoe AI is gebruikt, met zorgvuldige bronvermelding en altijd een menselijke eindverantwoordelijke voor het eindresultaat. Ook pleiten ze voor strengere richtlijnen van universiteiten, wetenschappelijke tijdschriften en subsidieverstrekkers, om de kwaliteit en controleerbaarheid van wiskundig onderzoek te waarborgen.

Volgens de groep ligt er daarnaast een bredere taak bij beleid en politiek. Zij zouden moeten investeren in publieke alternatieven voor commerciële AI-systemen en strengere eisen moeten stellen aan de sector, zodat kennis en macht niet uitsluitend in handen komen van een klein aantal techbedrijven.

Portegies vult aan: “Denk goed na over het type model dat je gebruikt. Er zijn verschillende aanbieders, met verschillende verdienmodellen en verschillende manieren waarop ze met data omgaan. Kijk naar alternatieven, zoals lokale modellen of Europese systemen. Voor sommige toepassingen heb je echt niet het nieuwste of zwaarste model nodig.”

Waar mensen AI nog voorblijven

Alles samengevat: ondanks de snelle vooruitgang ziet Portegies nog duidelijke grenzen aan wat AI kan. Vooral bij afgebakende problemen kunnen taalmodellen indrukwekkende prestaties leveren. Maar wiskunde draait volgens hem om meer dan het vinden van antwoorden. “Een belangrijk deel van wiskunde is het ontwikkelen van nieuwe concepten en nieuwe manieren van denken.” Grote doorbraken ontstaan volgens hem vaak doordat onderzoekers een compleet nieuwe taal of een nieuw raamwerk ontwikkelen waarmee een probleem ineens eenvoudiger wordt. “Juist dat soort fundamentele vernieuwing zie ik AI voorlopig nog niet leveren.”