Logo

Watt Matters in AI: wat doet software voor energie-efficiëntie?

In aanloop naar de “Watt Matters in AI” conferentie: de huidige situatie, de maatschappelijke behoeften en de wetenschappelijke vooruitgang.

Published on April 13, 2025

AI energy watt matters in ai

Medeoprichter van Media52 en hoogleraar Journalistiek, bouwt aan IO+, events en Laio, met focus op commerciële kansen—en blijft schrijven voor IO+.

Onderzoekers pakken AI-gerelateerde uitdagingen op het gebied van energie-efficiëntie technologisch aan op twee fronten: door hardware-innovaties (het maken van energiezuinige, op het brein geïnspireerde computerapparaten en versnellers) en software-innovaties (het ontwikkelen van algoritmen en technieken om de rekenkosten van AI-modellen te verlagen). Daarnaast wordt er veel aandacht besteed aan gedragsverandering (bijv. ethische kaders, bedrijfsverantwoordelijkheid, betrokkenheid van gebruikers, beleidsontwikkeling en publieke bewustwording). Veel van deze vorderingen zijn gepubliceerd in toonaangevende tijdschriften en conferenties en zijn beschikbaar als open-access artikelen.

Vandaag richten we ons op de mogelijkheden aan de softwarekant. We geven een overzicht van recent open-access onderzoek (2024-2025) dat zich richt op strategieën om de energie-efficiëntie van AI-software te verbeteren.

Watt Matters in AI banner

Watt doet ertoe in AI

De conferentie Watt Matters in AI is een initiatief van Mission 10-X, in samenwerking met de Rijksuniversiteit Groningen, Universiteit Twente, Technische Universiteit Eindhoven, Radboud Universiteit en Convention Bureau Brainport Eindhoven. IO+ is verantwoordelijk voor marketing, communicatie en de organisatie van de conferentie.

Meer informatie op de website van de conferentie.

Modelcompressie: snoeien en quantisatie

Aan de algoritmische kant is modelcompressie een cruciale strategie voor het verminderen van de energie- en rekenvoetafdruk van AI-modellen. Twee veelgebruikte technieken zijn snoeien ('pruning', het verwijderen van overbodig gewicht en verbindingen) en quantisatie ('quantization' het verminderen van de numerieke precisie van modelparameters). Een uitgebreid onderzoek naar het snoeien van neurale netwerken, gepubliceerd medio 2024 in Cognitive Computation benadrukte dat grote CNN's vaak een enorm aantal parameters bevatten die kunnen worden verwijderd met een minimaal effect op de nauwkeurigheid. Het snoeien van deze onnodige gewichten levert “lichtere en energie-efficiënte neurale netwerken” op. Het onderzoek gaf een overzicht van recente doorbraken in snoeimethoden - van ongestructureerd snoeien van gewichten tot gestructureerd snoeien van kanalen en neurale architectuur zoeken naar sparsiteit - en besprak hoe deze methoden de inferentiekosten en zelfs de CO2-voetafdruk verminderen. Er werd ook gewezen op de behoefte aan betere metrieken om het snoeien te sturen (naast de eenvoudige gewichtsomvang) en aan technieken om moderne architecturen zoals Transformers aan te kunnen. Snoeien heeft zich ontwikkeld tot een effectief hulpmiddel voor het verkrijgen van 'groene AI-modellen' door rekenafval te elimineren.

Quantisatie is een ander gebied waar aanzienlijke vooruitgang is geboekt. Door lagere-bits representaties te gebruiken voor neurale netwerkgewichten en activeringen (bijv. 8-bits, 4-bits of zelfs binair) kunnen het geheugengebruik en de energie per bewerking drastisch worden teruggebracht. De uitdaging is om de nauwkeurigheid te behouden met zo'n verminderde precisie. Eind 2024 introduceerden onderzoekers 4-bits quantisatiemethoden voor grote taalmodellen (LLM's) die bijna originele nauwkeurigheid bereiken. Eén benadering, QRazor (Lee et al. 2024), maakt gebruik van een tweefasig “significante data razoring”-schema: eerst gewichten/activaties beperken tot schalen van 8-16 bits voor stabiliteit, dan comprimeren tot 4-bit door alleen de meest significante bits te behouden. Deze methode behield de nauwkeurigheid op transformatormodellen “beter of vergelijkbaar met state-of-the-art 4-bit methoden”, terwijl hardware-optimalisaties mogelijk waren. De auteurs ontwikkelden een aangepaste integer rekeneenheid om direct te werken op de 4-bits gecomprimeerde gegevens, waardoor ~58% minder energie en oppervlakte nodig was dan bij een standaard 8-bits rekeneenheid. Dergelijke innovaties tonen aan dat ultralage precisie (<=4 bits) praktisch wordt voor diepe netwerken, wat zou kunnen leiden tot aanzienlijke energiebesparingen in zowel datacenters als randapparaten.

AI energy hungry

Watt Matters in AI: op zoek naar energie-efficiënte AI

In aanloop naar de “Watt Matters in AI” conferentie: de huidige situatie, de maatschappelijke behoeften en de wetenschappelijke vooruitgang.

Naast compressie na de training wordt in sommige werken ook aandacht besteed aan efficiëntie tijdens de training. In een artikel van NeurIPS 2023 (Shi et al.) wordt bijvoorbeeld SDP4Bit voorgesteld, een strategie om zowel gradiënten als gewichten te quantiseren tot 4 bits voor gedistribueerde training, waarbij de kwaliteit van het model behouden blijft. Technieken zoals quantiseringsbewuste training en distillatie blijven zich ook ontwikkelen, waardoor vaak kleinere modellen kunnen worden getraind die even goed presteren als grote modellen tegen een fractie van de rekenkosten.

In het algemeen heeft modelcompressie het afgelopen jaar de ontwikkeling mogelijk gemaakt van kleinere, dunner en minder nauwkeurige modellen die sneller werken en minder stroom verbruiken. Gesnoeide en gequantiseerde modellen verbruiken niet alleen minder energie tijdens inferenties, maar ze kunnen ook geheugenproblemen verminderen, waardoor geavanceerde AI kan worden ingezet op hardware met beperkte energie. Deze softwareoptimalisaties vormen een aanvulling op de vooruitgang in hardware - een gequantificeerd model dat draait op een neuromorfische of CIM-versneller vergroot bijvoorbeeld de efficiëntiewinst.

Technieken voor benaderend rekenen

Approximate computing is een breed paradigma dat kleine reducties in resultaatnauwkeurigheid accepteert in ruil voor onevenredige winst in efficiëntie. Dit concept is zeer relevant voor AI, waar exact rekenen vaak niet nodig is voor goede modelprestaties. In een benaderende rekenbenadering kan men operaties met een lagere precisie gebruiken, berekeningen met een lage impact overslaan of vroegtijdig beëindigen of vereenvoudigde algoritmen gebruiken. Volgens een onderzoek uit 2025 in ACM CSUR is Approximate Computing naar voren gekomen als een “veelbelovende oplossing” voor energie-efficiënte AI, waarmee ontwerpers de kwaliteit van resultaten kunnen afstemmen om het energieverbruik en de prestaties te verbeteren. Er is veel onderzoek gedaan naar benadering op verschillende systeemlagen, van circuits (bijv. benaderende adders/multiplicatoren) tot algoritmische technieken (bijv. het weglaten van lagen of het gebruik van proxy-modellen).

In de praktijk vertaalt benaderend rekenen voor AI zich vaak in het energiebewust afknijpen van berekeningen. Een systeem kan bijvoorbeeld dynamisch een lichter of zwaarder model selecteren op basis van de beschikbare energie of vereiste nauwkeurigheid, zoals te zien is in een adaptief raamwerk voor edge AI. Een ander voorbeeld zijn early-exit netwerken die inferentie laten stoppen zodra er voldoende vertrouwen is, waardoor latere lagen worden overgeslagen wanneer dat mogelijk is. Deze strategieën zorgen ervoor dat de berekening (en het energieverbruik) in realtime meegroeit met de complexiteit van de taak.

Watt Matters in AI

Watt Matters in AI: wat doet hardware voor energie-efficiëntie?

In aanloop naar de “Watt Matters in AI” conferentie: de huidige situatie, de maatschappelijke behoeften en de wetenschappelijke vooruitgang.

Empirische resultaten hebben aangetoond dat zorgvuldige benadering aanzienlijke energiebesparingen kan opleveren voor een minimaal verlies aan nauwkeurigheid. In één onderzoek bespaarde een gezamenlijke sensor-geheugen-computer benaderingsmethode op een beeldherkenningssysteem ongeveer 1,6×-5× energie met minder dan 1% afname in nauwkeurigheid. Zelfs bij diepe objectdetectiemodellen leverden synergetische benaderingen in de hele pijplijn tot 5,2× energiebesparing op voor een vergelijkbaar verwaarloosbaar kwaliteitsverlies. De sleutel is om benaderingen op een gecontroleerde manier toe te passen - bijvoorbeeld door verminderde precisie te gebruiken waar het netwerk minder gevoelig is, of door berekeningen over te slaan die weinig bijdragen aan het eindresultaat. Naarmate hulpmiddelen de “knoppen” voor benadering categoriseren (op data-, algoritme- of circuitniveau), kunnen ontwikkelaars deze technieken eenvoudiger integreren om gradueel degraderende AI-systemen te maken die veel minder energie verbruiken.

Een opkomend gebied is de integratie van approximation computing met federated en edge learning, waarbij apparaten beperkte energie hebben. Een onderzoek uit 2024 in Energies onderzocht energie-efficiënt ontwerp voor gefedereerd leren, waarbij de nadruk werd gelegd op benadering en optimalisatie om de levensduur van de batterij op gedistribueerde clients te verlengen. Technieken zijn onder andere agressieve quantisatie van communicatie en lokale modelupdates, en lossy compressie van uitgewisselde informatie - allemaal vormen van benadering die een beetje fout tolereren voor aanzienlijke energiewinst.

Samengevat biedt approximate computing een raamwerk om nauwkeurigheid op een principiële manier in te ruilen voor efficiëntie. Het afgelopen jaar is dit steeds vaker toegepast op AI-werklasten, vaak in combinatie met modelcompressie en gespecialiseerde hardware, om het energieverbruik naar een nieuw dieptepunt te brengen. Nu AI-systemen steeds vaker worden toegepast in omgevingen met een beperkt stroomverbruik (zoals IoT-sensoren, mobiele apparaten en EV's), zullen deze benaderingsstrategieën van vitaal belang zijn voor een duurzame inzet van AI.

innovationorigins_an_AI_chip_that_however_powerful_keeps_its_en_3a2cdcc5-f26d-4977-a0f9-065eb6144fed.png

Deze chip verlaagt het AI-energieverbruik met 1000 keer

Een team van Amerikaanse onderzoekers heeft een chip ontwikkeld die het energieverbruik van AI drastisch kan verlagen.

Energie-efficiënte neurale netwerkarchitecturen

Terwijl compressie en benadering bestaande modellen aanpassen, is een andere benadering het ontwerpen van nieuwe neurale netwerkarchitecturen die inherent energie-efficiënter zijn. Dit kan betekenen het creëren van modellen die meer bereiken met minder parameters of operaties, of architecturen die beter gebruik maken van moderne hardware parallellisme om energie te besparen per inferentie. Een prominente trend is hardwarebewust zoeken naar neurale architecturen (NAS) - automatisch zoeken naar netwerkontwerpen die de nauwkeurigheid en efficiëntie optimaliseren. Recent onderzoek is begonnen met het direct opnemen van energieverbruik in de NAS-doelstelling. La et al. (arXiv 2025) presenteren bijvoorbeeld een NAS-methode die zich richt op het minimaliseren van gemeten energieverbruik in plaats van op proxy-metrieken zoals FLOP's. In hun studie op tabelvormige datamodellen verminderde de NAS-gevonden architectuur het energieverbruik tot 92% in vergelijking met architecturen gevonden door conventionele (alleen nauwkeurigheid) NAS-benaderingen. Deze enorme winst onderstreept hoe verschillend een energie-optimaal netwerk kan zijn van een standaard netwerk en het belang van expliciet optimaliseren voor energie. Steeds meer NAS-raamwerken voor visuele en taaltaken volgen dit voorbeeld en nemen energie- en latentievoorspellers op tijdens het zoeken om gespecialiseerde, efficiënte modellen op te leveren.

Onderzoekers herzien ook de basisprincipes van neurale netwerken om de efficiëntie te verbeteren. Spiking Neural Networks (SNN's) zijn daar een voorbeeld van: ze coderen informatie in de vorm van spike-gebeurtenissen in de tijd, waardoor ze potentieel veel minder bewerkingen nodig hebben dan dichte feed-forward netwerken (vooral op neuromorfe hardware). Er zijn nieuwe architecturen en trainingsmethoden voor SNN's ontstaan die ze beter bruikbaar maken voor praktische taken, door de kracht van diep leren te combineren met de event-gedreven efficiëntie van spiking. Een raamwerk uit 2024 genaamd SNN4Agents introduceerde optimalisatietechnieken voor belichaamde spiking neurale netwerken, waarmee energie-efficiënte besturing in robotica werd gedemonstreerd. Ook de vooruitgang in binaire neurale netwerken (waar gewichten/activeringen slechts 1-bit zijn) blijft de nauwkeurigheid dichter bij volledige precisienetwerken brengen, wat digitale inferentie mogelijk zou kunnen maken met veel minder energie.

Axelera AI

Axelera AI krijgt €61,6 miljoen om AI-chiplet te ontwikkelen

Axelera AI krijgt EU-steun voor de ontwikkeling van Titania, een krachtige AI-chipset die Europa's supercomputer-infrastructuur stimuleert.

Een andere benadering voor efficiënte architecturen is het gebruik van modelsparsity en modulariteit. Technieken zoals Mixture-of-Experts (MoE) creëren modellen waarbij slechts een klein deel van het netwerk (“expert”) actief is voor elke invoer, wat gemiddeld rekenwerk bespaart. En methoden die gestructureerde spaarzaamheid afdwingen kunnen efficiënte spaarzame matrixbewerkingen in hardware gebruiken. Deze strategieën op architectuurniveau hebben vaak raakvlakken met trainingstechnieken, zoals het snoeien in de stijl van de loterijbriefjeshypothese, waarbij subnetwerken worden gevonden die geïsoleerd kunnen worden getraind, wat een nieuwe, kleinere architectuur oplevert die net zo nauwkeurig is als het origineel.

Tot slot richten onderzoekers zich op taakspecifieke architecturen die gestroomlijnd zijn voor bepaalde domeinen. Zo zijn lichtgewicht CNN's voor mobile vision (bijvoorbeeld MobileNet-varianten) en kleine transformatoren voor edge NLP voortdurend verbeterd. In 2024 zagen we nieuwe varianten van efficiënte vision transformers en grafisch neurale netwerken die de modelgrootte en bewerkingen drastisch terugbrachten, vaak door inzichten zoals early-exit, hergebruik van features of het aanpassen van de netwerkdiepte aan de invoercomplexiteit (dynamische diepte). Deze innovaties zorgen ervoor dat het model niet meer werk doet dan nodig is voor elke taak.

De architectuur van een neuraal netwerk heeft grote invloed op het energieprofiel. Door geautomatiseerd zoeken en slimme ontwerpprincipes heeft het onderzoek van het afgelopen jaar neurale architecturen opgeleverd die vanaf de basis geoptimaliseerd zijn voor efficiëntie. In combinatie met efficiënte hardware helpen deze architecturen de energievraag van AI om te buigen, waardoor krachtige AI mogelijk wordt met een kleinere energievoetafdruk.

Watt Matters in AI

Watt Matters in AI is een conferentie die zich richt op het verkennen van het potentieel van AI met aanzienlijk verbeterde energie-efficiëntie. In de aanloop naar de conferentie publiceert IO+ een serie artikelen die de huidige situatie en mogelijke oplossingen beschrijven. Tickets voor de conferentie zijn te vinden op wattmattersinai.eu.

View Watt Matters in AI Series

Disclaimer: Bij het vinden en analyseren van relevante studies voor dit artikel is gebruik gemaakt van kunstmatige intelligentie.