Wil je met iemand uit 1930 praten? Dat kan nu, dankzij AI

Heb je je ooit afgevraagd hoe het zou zijn om een gesprek te voeren met iemand van een eeuw geleden – geen re-enactor, geen historicus, maar iemand die echt niet weet hoe het verhaal afloopt? Met een nieuw AI-model kan dat. Talkie simuleert een gesprekspartner uit het begin van de 20e eeuw, en in tegenstelling tot conventionele modellen die het hele internet afspeuren om hun antwoorden te formuleren, kan het alleen informatie ophalen tot 31 december 1930.

Dit ‘vintage’ taalmodel is bedoeld om de kennis, cultuur en taalkundige nuances van dat specifieke tijdperk weer te geven. Het project, geleid door Nick Levine, David Duvenaud en Alec Radford, kreeg rekenkrachtondersteuning van het AI-lab Anthropic. Talkie is meer dan alleen een chatbot uit het verleden: het kan helpen om de voorspellende mogelijkheden van AI te begrijpen. Bovendien kunnen onderzoekers, door de kennis van het model te bevriezen in 1930, observeren hoe het omgaat met concepten die het nooit expliciet heeft geleerd.

Deze aanpak wijkt af van de standaardfilosofie ‘meer data is beter’ die gangbaar is in Silicon Valley. In plaats daarvan richt het zich op de kwaliteit en de tijdsgebondenheid van informatie. Het resulterende systeem biedt een uniek perspectief op de wereld, volledig onbelast door het digitale tijdperk of moderne historische achterafkennis. Het model is openbaar toegankelijk en iedereen kan een gesprek aangaan.

Gegevens efficiënt verzamelen

Het ontwikkelen van Talkie bracht een grote uitdaging met zich mee: het vinden van de juiste gegevens om het model mee te trainen. In tegenstelling tot de meeste AI-modellen, die leren van moderne teksten die online te vinden zijn, moest Talkie leren van oude boeken, tijdschriften en fysieke archieven — waarbij een enorme hoeveelheid van 260 miljard woorden aan historische inhoud werd verzameld.

Het eerste grote probleem was het omzetten van gescande pagina's in bruikbare tekst. Dit gebeurt via een proces dat OCR (Optical Character Recognition) heet, wat in feite software is die afbeeldingen van tekst ‘leest’. Het probleem is dat de meeste OCR-tools zijn gebouwd voor schone, moderne documenten en moeite hebben met de vervaagde, onregelmatig opgemaakte pagina's van eeuwenoud materiaal.

De eerste pogingen waren slecht: de tekst die de software produceerde was zo foutgevoelig dat de AI slechts een derde zo effectief leerde als bij perfect getranscribeerd materiaal. Het team verbeterde dit aanzienlijk door geautomatiseerde technieken voor tekstopschoning toe te passen, waardoor de leerefficiëntie tot 70% steeg.

Om de laatste kloof te dichten, bouwt het team een eigen, op maat gemaakte OCR-tool die specifiek is ontworpen voor historische documenten. Naast nauwkeurigheid lost dit ook een ander subtiel probleem op: ervoor zorgen dat er niet per ongeluk moderne tekst in de trainingsdata terechtkomt. Aangezien Talkie bedoeld is om de wereld weer te geven zoals die vóór 1931 werd begrepen, kan zelfs iets kleins als een datumstempel in moderne stijl op een gescand document dat in gevaar brengen. Door de data strikt historisch te houden, blijft het model een authentiek venster op het verleden.

Een AI-model trainen zonder ethische vooringenomenheid

Volgens het team was het vormgeven van de persoonlijkheid en de gespreksstijl van Talkie een van de meest creatieve aspecten van de ontwikkeling ervan. De meeste moderne AI-modellen worden verfijnd met behulp van feedback uit echte menselijke gesprekken — een proces dat van nature de waarden, communicatienormen en gevoeligheden van vandaag de dag in het model verwerkt. Voor Talkie zou dat een probleem zijn, aangezien het doel is dat het model denkt en spreekt als iemand uit de jaren 1930, niet als een hedendaagse chatbot met een vintage laagje verf.

Om dit te omzeilen, vermeed het team modern trainingsmateriaal volledig. In plaats daarvan wendden ze zich tot bronnen die bij die periode pasten – etiquettegidsen, kookboeken, woordenboeken en poëziebundels uit het begin van de 20e eeuw – om het model te leren hoe mensen uit die tijd communiceerden en wat zij als gepast of normaal beschouwden. Het is een subtiel maar krachtig onderscheid: in plaats van de AI te vertellen hoe hij zich moet gedragen, lieten ze de cultuur van die tijd voor zichzelf spreken.

Het team werkt ook samen met historici om gedetailleerde historische persona's te ontwikkelen – in wezen karakterprofielen die zijn gebaseerd op wat een echt persoon uit die periode zou hebben geweten, geloofd en tot zijn beschikking gehad. Dit voorkomt dat het model per ongeluk put uit moderne kennis of redeneert op manieren die vreemd zouden zijn geweest voor iemand die in 1931 leefde.

Het resultaat is een AI die niet alleen ouderwetse taal nabootst, maar ook echt redeneert binnen de grenzen van zijn tijdperk — waardoor het veel meer aanvoelt als een venster op het verleden dan als een modern systeem dat zich verkleedt.

Waarom Talkie een nuttig experiment is

Er zijn meerdere redenen waarom Talkie een nuttig AI-experiment is. Vanuit wetenschappelijk oogpunt blijkt een AI met een historische beperking een verrassend nuttig onderzoeksinstrument te zijn. Omdat het model alleen beschikte over kennis van vóór 1931, kunnen onderzoekers testen of het in staat zou zijn geweest om belangrijke gebeurtenissen die daarna plaatsvonden te voorzien, zoals de economische ineenstorting tijdens de Grote Depressie of belangrijke wetenschappelijke ontdekkingen uit het midden van de 20e eeuw. Het is een beetje als een gecontroleerd experiment achteraf: als de patronen in de gegevens aanwezig waren, had een AI ze dan kunnen ontdekken?

Op menselijk vlak biedt Talkie iets dat moeilijker te kwantificeren is, maar even boeiend: een manier om je te verdiepen in hoe mensen in een ander tijdperk daadwerkelijk dachten en redeneerden. In plaats van over het verleden te lezen, kunnen gebruikers interactie hebben met een systeem dat de logica ervan van binnenuit weerspiegelt. Dit heeft een duidelijke aantrekkingskracht voor het onderwijs en historisch onderzoek, omdat het een meer meeslepende manier biedt om een bepaald moment in de tijd te verkennen.

Er is ook een bredere technische vraag die het project helpt beantwoorden: hoe capabel kan een AI zijn als deze is getraind op een kleinere, meer gerichte dataset in plaats van de enorme, uitgestrekte inhoud van het moderne internet? De meeste geavanceerde modellen danken een groot deel van hun vermogen aan de enorme omvang en verscheidenheid van hun trainingsdata. Talkie test wat er mogelijk is als je dat weglaat en binnen strakke beperkingen werkt — en wat dat betekent voor het bouwen van effectieve AI in gespecialiseerde vakgebieden waar webdata simpelweg niet beschikbaar of geschikt is.

Wat staat er op het programma?

Talkie is momenteel beschikbaar als een model met 13 miljard parameters — kleiner dan giganten als GPT-4, maar het laat in eerste tests al een solide redeneervermogen zien. Het is geen verrassing dat het achterblijft bij moderne modellen op het gebied van algemene kennis, hoewel dit volkomen te verwachten is aangezien het model per definitie bijna een eeuw aan menselijke geschiedenis mist. Het team werkt eraan om dit aan te pakken door de trainingsdata uit te breiden tot meer dan 1 biljoen tokens en verder te kijken dan Engelstalige bronnen om een meer mondiaal historisch perspectief te integreren.

Het doel van het team op korte termijn is om tegen de zomer van 2026 een aanzienlijk krachtigere versie uit te brengen, gericht op mogelijkheden die ongeveer gelijk zijn aan die van GPT-3.5 — terwijl de strikte kennisgrens van vóór 1931 gehandhaafd blijft. Om dat te bereiken, moeten ze hun aangepaste OCR-systeem blijven verbeteren en de kwaliteit van het trainingscorpus verhogen. De bredere ambitie reikt echter verder dan het bouwen van een betere historische chatbot. Als een model een hoog niveau van redeneren kan bereiken met alleen gegevens van vóór 1931, toont dit aan dat het moderne internet niet de enige weg is naar capabele AI. Dit opent de deur naar gespecialiseerde modellen die zijn gebouwd rond andere historische periodes of technische domeinen waar webgegevens schaars zijn of simpelweg niet geschikt zijn.

Wil je met iemand uit 1930 praten? Dat kan nu, dankzij AI

Door: Team IO+

Gegevens efficiënt verzamelen

Een AI-model trainen zonder ethische vooringenomenheid

Waarom Talkie een nuttig experiment is

Wat staat er op het programma?