Euclyd komt met exascale tokenfabriek met minimaal stroomverbruik

Een nieuwe chipstartup uit Eindhoven, Euclyd, kwam vorige week uit de anonimiteit met CRAFTWERK, een inferentiearchitectuur die beweert het laagste stroomverbruik en de laagste kosten per token te bieden voor de volgende generatie agentic AI. Het bedrijf heeft het ontwerp onthuld op de Kisaco AI Infra Summit in Santa Clara.

De kern van het systeem wordt gevormd door een palmformaat SiP (System-in-Package) met 16.384 aangepaste SIMD-processors en 1 TB aan “Ultra Bandwidth Memory”, met een opgegeven bandbreedte van 8.000 TB/s. Euclyd zegt dat een enkele SiP een piek bereikt van 8 PFLOPS (FP16) of 32 PFLOPS (FP4) en past in een rackproduct, CRAFTWERK STATION CWS 32, dat 32 SiP's samenvoegt tot 1,024 exaFLOPS (FP4) en 32 TB aan on-package geheugen. In multi-user modus zal het rack naar verwachting 7,68 miljoen tokens per seconde genereren, wat een “100× verbetering” betekent in energie-efficiëntie en kosten per token ten opzichte van toonaangevende alternatieven.

“Onze Crafted Compute-filosofie herdefinieert inferentie vanaf de basis, met aangepaste processors, aangepast geheugen en geavanceerde 2,5D/3D-verpakking”, aldus Bernardo Kastrup, oprichter en CEO. Peter Wennink, investeerder in Euclyd en voormalig CEO van ASML, voegde hieraan toe: “AI-inferentie zal datacentersilicium domineren. De baanbrekende economische voordelen van CRAFTWERK zullen de acceptatie van agentic AI versnellen.”

CoolSem wil III-V-chips koeler, krachtiger en duurzamer maken

Startup uit Eindhoven onthult thermische route waarmee een van de beperkende problemen van deeptech wordt aangepakt: warmte.

Wat is er nieuw en wat is nog steeds een model

Euclyd benadrukt dat CRAFTWERK zich “in een vergevorderd ontwerpstadium” bevindt en nog geen chips levert; de belangrijkste cijfers zijn gemodelleerde prognoses ten opzichte van Meta's Llama 4 Maverick-familie. Dat is relevant omdat inferentiestatistieken notoir appels met peren vergelijken (doorvoer per gebruiker versus geaggregeerd, modelgrootte, kwantisering en gelijktijdigheid veranderen allemaal het verhaal). NVIDIA heeft bijvoorbeeld onlangs benadrukt dat Llama 4 Maverick op een DGX B200 (Blackwell) node meer dan 1.000 tokens/sec per gebruiker haalt, terwijl Cerebras beweert 2.522 tokens/sec te halen op zijn wafer-scale systeem; dit zijn indrukwekkende snelheden voor één gebruiker, die een andere dimensie meten dan Euclyd's totaal voor meerdere gebruikers op rackniveau.

Bits&Chips maakte al zichtbaar dat verschillende veteranen van Silicon Hive (een beroemd DSP/IP-team uit Eindhoven dat later door Intel werd overgenomen) deel uitmaken van het management van Euclyd, en de publicatie herhaalt de SiP-specificaties en de systeemprognose van 7,68 miljoen tokens/s bij 125 kW.

Waarom dit belangrijk is: energie is de nieuwe bottleneck

De timing is scherp. De IEA voorspelt dat de elektriciteitsvraag van datacenters in 2030 meer dan verdubbeld zal zijn, met een verviervoudiging van AI-specifieke workloads; een achtergrond die tokens per kilowatt tot een KPI op bestuursniveau maakt in plaats van een nerdy statistiek. Als de cijfers van Euclyd in silicium standhouden, zou ~125 kW voor exascale-klasse FP4 opmerkelijk kunnen zijn, vooral omdat concurrenten snelheid nastreven door steeds warmere versnellers te stapelen.

AI's stroomstoot: de digitale wereld zoekt een energiebalans

Rapport Energie & AI van het Internationaal Energie Agentschap (IEA) ziet naast de bedreigingen ook volop duurzaamheidskansen dankzij AI.

Euclyd speelt daarop in: aangepaste SIMD-computing, zeer nauw gekoppeld geheugen (“UBM”) en geavanceerde 2,5D/3D-verpakking om datapaden te verkorten, klassieke hefbomen voor minder joules per token. Het bedrijf omschrijft dit als “computing met een doel”, waarbij prestaties, kosten en ecologische voetafdruk worden gecombineerd, geheel in lijn met het Brainport-verhaal dat nuttige AI ook efficiënte AI moet zijn.

Het Eindhoven-perspectief – en zwaargewicht mentoren

Euclyd heeft zijn hoofdkantoor in Eindhoven en een kantoor in San Jose, en heeft Peter Wennink, Federico Faggin (pionier op het gebied van microprocessoren; Intel 4004, Zilog, Synaptics) en Steven Schuurman (oprichter van Elastic) als mentoren/investeerders, namen die zowel vakmanschap op het gebied van halfgeleiders als verstand van schaalvergroting uitstralen. Voor een regio die al ASML, NXP en een robuust verpakkingsecosysteem herbergt, past een speciaal voor dit doel opgerichte inferentiestartup perfect in het plaatje.

Voorlopig heeft Euclyd een gedurfde stap gezet. Kastrup: “We hebben elke poort ontworpen voor maximale efficiëntie en minimaal stroomverbruik.” Als dat ethos de eerste siliciumfase overleeft, zou CRAFTWERK de door Brainport ontwikkelde inferentie tot een gespreksonderwerp kunnen maken dat veel verder reikt dan Eindhoven.

Watt Matters in AI

Watt Matters in AI is een conferentie die tot doel heeft het potentieel van AI met aanzienlijk verbeterde energie-efficiëntie te verkennen. In de aanloop naar de conferentie publiceert IO+ een reeks artikelen die de huidige situatie en mogelijke oplossingen beschrijven. Klik op de link om ze allemaal te lezen.

Bekijk Watt Matters in AI