Axelera AI: Stop met opwaarderen cloudchips, edge AI gaat winnen
De edge AI-markt bloeit, maar implementaties blijven steken in een ‘piloot-vagevuur’. De oplossing? Radicale siliciumtechnologie die de data-bottleneck wegneemt.
Published on November 4, 2025

Fabrizio del Maffeo, © Axelera AI
Medeoprichter van Media52 en hoogleraar Journalistiek, bouwt aan IO+, events en Laio, met focus op commerciële kansen—en blijft schrijven voor IO+.
De AI-revolutie op bedrijfsniveau is onmiskenbaar, maar de belofte van AI-inferentie aan de 'edge' – op een camera, een fabrieksrobot of een verkeerslicht in de stad – is grotendeels een proof-of-concept-droom gebleven. Bedrijven komen vast te zitten in een toestand die wel ‘testcase-vagevuur’ wordt genoemd, waarbij ze niet in staat zijn om van het laboratorium naar massaproductie over te stappen.
Volgens Axelera AI, een disruptieve speler in de sector, is de reden hiervoor een fundamentele mismatch in de infrastructuur. We hebben jarenlang geprobeerd om silicium dat is ontworpen voor hyperscale clouddatacenters of mobiele telefoons met een laag stroomverbruik in te passen in veeleisende, real-world edge-toepassingen. Het resultaat is hardware die er op papier geweldig uitziet, maar onder druk bezwijkt. Tijdens het AI Beyond The Edge-forum van vorige week sprak Fabrizio Del Maffeo, CEO van Axelera AI, zich hierover uit: “Er is een enorme kloof tussen waar iedereen het over heeft en wat er in de praktijk echt werkt.” Zijn diagnose: “Iedereen probeert cloudchips of mobiele processors in edge-toepassingen te proppen. De onderliggende architectuur is hier gewoon niet voor gebouwd.”

Ionnis Papistas (Axelera AI) is een van de sprekers op de Watt Matters in AI conferentie.
Industriële klanten staan voor een moeilijke keuze: high-end GPU's die zoveel stroom verbruiken dat ze honderden euro's per maand aan de elektriciteitsrekening kunnen toevoegen, of aangepaste hardware die thermisch vertraagt en uitvalt wanneer deze wordt ingezet in warme, beperkte fabrieks- of winkelomgevingen. Voor slimme stadsplanners die dromen van het analyseren van 4K/8K-videostreams, is de ROI-berekening met traditionele GPU-oplossingen simpelweg onhaalbaar; de kosten van infrastructuur en koeling zijn onbetaalbaar, waardoor noodzakelijke projecten op het gebied van openbare veiligheid en verkeersanalyse eerder ambitieus dan haalbaar zijn.
Dit falen is geen probleem van slecht modelontwerp of capaciteit, stelt Del Maffeo. Het is een ontwerpfout in de basis van de gebruikte computerarchitectuur.
De Von Neumann-bottleneck
Om te begrijpen waarom traditionele hardware faalt aan de rand, moet je kijken naar hoe neurale netwerken eigenlijk werken. Of het nu gaat om het verwerken van video, spraak of taal, AI-inferentie besteedt 70 tot 90 procent van zijn tijd aan matrix-vectorvermenigvuldigingen.
In een traditionele Von Neumann-architectuur zijn de processor en het geheugen gescheiden. Dit betekent dat elke keer dat er een berekening nodig is, gegevens voortdurend heen en weer moeten worden gestuurd over de chip. Deze energie die wordt besteed aan gegevensverplaatsing (niet aan daadwerkelijke berekeningen) wordt de belangrijkste energieverslinder. Aan de rand, waar elke milliwatt en milliseconde telt, is deze architectuur uiterst inefficiënt.
De radicale verandering die bedrijven als het in Eindhoven gevestigde Axelera AI teweegbrengen, ligt in hun Digital In-Memory Computing (D-IMC)-architectuur. Dit is een speciaal ontwikkelde oplossing waarbij het geheugen en de rekenelementen direct naast elkaar, op hetzelfde blok, worden geplaatst.
Door berekeningen uit te voeren op de plek waar de gegevens zijn opgeslagen, vermindert D-IMC de gegevensverplaatsing drastisch, waardoor de bottleneck wordt weggenomen en superieure prestaties worden gerealiseerd. Het gaat hier niet om het creëren van de snelste chip in het algemeen, maar om het optimaliseren van de matrix-vectorbewerkingen met hoge doorvoer en lage latentie die kenmerkend zijn voor moderne AI-workloads. Dankzij deze efficiëntie kan hun Metis AI Processing Unit (AIPU)-platform concurrerende Tera Operations Per Second (TOPS) leveren binnen extreem lage stroomverbruiksbudgetten (bijv. 4-8 watt), met behoud van prestatieconsistentie die aangepaste chips gewoonweg niet kunnen evenaren onder aanhoudende belasting.
Waar architectuur en economie samenkomen
Wanneer de hardwarearchitectuur eindelijk perfect aansluit bij de workloadvereisten, worden toepassingen die technisch haalbaar waren in een schone laboratoriumomgeving plotseling economisch praktisch in de rommelige wereld. Deze verschuiving maakt al vier cruciale use cases haalbaar:
1. Voedselveiligheid en keukenmonitoring

De uitdaging in de foodservice is het in realtime controleren van de naleving van uniformvoorschriften (hoeden, handschoenen, enz.) voor tientallen werknemers zonder daarvoor speciaal personeel in te huren. Eerdere systemen waren te traag of te complex. De architectuur van Axelera maakt gelijktijdige, snelle verwerking op één edge-apparaat mogelijk: 45 FPS voor persoonsdetectie plus een verbazingwekkende 900 FPS voor uniformcontrole. Deze dubbele efficiëntie automatiseert de naleving van de voedselveiligheid op effectieve wijze en functioneert robuust in de omstandigheden van hoge temperaturen en veel verkeer in een commerciële keuken.
2. Snelle zaadsortering in de landbouw

Precisielandbouw vereist extreme snelheid. De hele cyclus – beeldregistratie, AI-verwerking en mechanische activeringsbeslissing – moet in slechts 4 milliseconden worden voltooid. High-end consumenten-GPU's, zoals de Nvidia RTX 4080, hadden alleen al voor de AI-verwerking 2,3 ms nodig, wat niet voldeed aan de vereiste. De speciaal ontwikkelde Metis-chip verkort de AI-verwerkingstijd tot 1,2 ms, waardoor de hele use case haalbaar wordt met voldoende marge voor mechanische componenten. Deze doorvoer rechtvaardigt direct de hoge kapitaalinvestering in apparatuur voor het sorteren van zaden en producten.
3. Veerkrachtige kwaliteitscontrole in de productie

Fabrieksvloeren hebben kwaliteitscontrolesystemen nodig om meerdere complexe inspectiemodellen (bijv. detectie van oppervlaktefouten, assemblageverificatie) tegelijkertijd op verschillende productielijnen uit te voeren. Stroomverbruik en thermisch beheer zijn belangrijke kwesties. Het Metis-platform maakt consistente, parallelle verwerking van meerdere camerabeelden mogelijk zonder de thermische beperkingen die gebruikelijk zijn bij aangepaste oplossingen. De zakelijke impact is onmiddellijk en meetbaar: een vermindering van 30% in kwaliteitsproblemen, in combinatie met een vermindering van 50% in inspectiekosten in vergelijking met verouderde handmatige processen.
4. 4K/8K Smart City-toepassingen

Het belangrijkste obstakel bij de implementatie van smart cities is de verwerking van enorme 4K- en 8K-videostreams van meerdere camera's voor openbare veiligheid, verkeersstroomanalyse en tracking. De multi-core D-IMC-architectuur en een robuuste SDK verwerken deze high-definition streams met gemak, waardoor er geen dure, energieverslindende gecentraliseerde infrastructuur meer nodig is. Voor gemeenten verandert dit de situatie volledig, waardoor het financiële model verschuift naar een model met een haalbare ROI, waardoor ambitieuze stedelijke implementatiedoelen praktisch worden in plaats van louter aspiraties.
De kloof tussen het potentieel van AI en de implementatie ervan is geen softwareprobleem, maar een hardwareprobleem. Voor bedrijven die klaar zijn om verder te gaan dan de pilotfase, gaat de strategische keuze niet langer over het kopen van de snelste chip, maar over de optimale architectuur.

Watt Matters in AI
Bestel hier je ticket voor de Watt Matters in AI-conferentie (26 november, Eindhoven): wattmattersinai.eu
