Hoe ChatGPT werkt: de wiskunde achter AI in gewone taal

Illustratie in posterstijl: twee Transformers-robots onder de titel 'Attention Is All You Need'

Je typt een vraag in ChatGPT en binnen seconden krijg je een antwoord dat klinkt alsof een mens het heeft geschreven. Maar wat gebeurt er eigenlijk onder de motorkap? Het antwoord is verrassend: het draait allemaal om wiskunde, waarschijnlijkheden en veel, heel veel rekenkracht. Je hoeft gelukkig geen wiskundige te zijn om te begrijpen hoe het werkt.You type a question into ChatGPT and within seconds you get an answer that sounds as if a person wrote it. But what actually happens under the bonnet? The answer is surprising: it is all about mathematics, probabilities and a great, great deal of computing power. Fortunately, you do not need to be a mathematician to understand how it works.

Het begon met een simpel ideeIt began with a simple idea

Andrej Markov (1856–1922), een Russische wiskundige, had al aan het begin van de 20e eeuw ontdekt dat je taal kunt analyseren als een keten van kansen. Door Russische poëzie te bestuderen zag hij dat letters en woorden patronen volgen — dat de kans op een bepaalde letter afhangt van wat eraan voorafgaat. Deze „Markov-ketens” legden de wiskundige basis voor alles wat later zou komen.Andrey Markov (1856–1922), a Russian mathematician, had already discovered at the start of the 20th century that language can be analysed as a chain of probabilities. Studying Russian poetry, he saw that letters and words follow patterns — that the probability of a particular letter depends on what comes before it. These ‘Markov chains’ laid the mathematical foundation for everything that would follow.

Maar pas in 1948 kreeg Claude Shannon (1916–2001) bij Bell Labs het idee dat de wereld zou veranderen. Hij werkte aan telefoonlijnen en vroeg zich af hoeveel informatie je door een kabel kon sturen. Vervolgens ontdekte hij iets veel belangrijkers: je kunt taal zien als een reeks kansen, precies zoals Markov ruim dertig jaar eerder had ontdekt.But it was not until 1948 that Claude Shannon (1916–2001) at Bell Labs had the idea that would change the world. He was working on telephone lines and wondered how much information you could send down a cable. He then discovered something far more important: you can view language as a sequence of probabilities, exactly as Markov had found more than thirty years earlier.

Shannons inzicht was simpel maar briljant. Als je „Ik hou van…” typt, is de kans groot dat het volgende woord „jou” is. Niet omdat de computer begrijpt wat „houden van” betekent, maar omdat die combinaties heel vaak voorkomen in teksten. Het is pure statistiek — de statistiek die Markov al had beschreven met zijn ketens van waarschijnlijkheden.Shannon’s insight was simple but brilliant. If you type ‘I love…’, the odds are the next word is ‘you’. Not because the computer understands what ‘loving’ means, but because those combinations occur very often in texts. It is pure statistics — the statistics Markov had already described with his chains of probabilities.

Dit principe kennen we allemaal van autocorrectie op onze telefoon. Als je „Ik kom wat” typt, stelt je telefoon „later” voor. Dat is geen magie — het is statistiek. Je telefoon heeft uit miljoenen berichten geleerd welke woorden vaak na elkaar komen. Typ je vaak „pizza” na „bestel”, dan leert je telefoon dat ook.We all know this principle from autocorrect on our phones. If you type ‘I’ll be a bit’, your phone suggests ‘late’. That is not magic — it is statistics. Your phone has learned from millions of messages which words often follow one another. If you often type ‘pizza’ after ‘order’, your phone learns that too.

In de jaren zestig maakte Joseph Weizenbaum (1923–2008) een chatbot genaamd ELIZA. Het was een simpel programma dat deed alsof het een therapeut was. Als je typte „Ik voel me verdrietig”, antwoordde ELIZA met „Waarom voel je je verdrietig?” Het leek slim, maar het was gewoon een truc met patronen. ELIZA begreep niets van wat je zei.In the 1960s Joseph Weizenbaum (1923–2008) built a chatbot called ELIZA. It was a simple program that pretended to be a therapist. If you typed ‘I feel sad’, ELIZA replied ‘Why do you feel sad?’ It seemed clever, but it was just a trick with patterns. ELIZA understood nothing of what you said.

Van autocorrectie naar AIFrom autocorrect to AI

Jarenlang bleven taalmodellen hangen in wat we „n-grammen” noemen. Klinkt ingewikkeld, is het niet. Een bigram kijkt naar twee woorden („de kat”), een trigram naar drie („de kat zit”). Het model telde hoe vaak deze combinaties voorkwamen en gebruikte dat om het volgende woord te raden.For years, language models were stuck in what we call ‘n-grams’. Sounds complicated; it is not. A bigram looks at two words (‘the cat’), a trigram at three (‘the cat sits’). The model counted how often these combinations occurred and used that to guess the next word.

Het probleem? Deze modellen hadden het geheugen van een goudvis. Ze konden maar een paar woorden terugkijken. Als je een verhaal van tien zinnen schreef, was het model de eerste zin alweer vergeten. Het was alsof je met iemand praatte die steeds vergat waar het gesprek over ging.The problem? These models had the memory of a goldfish. They could only look back a few words. If you wrote a story of ten sentences, the model had already forgotten the first one. It was like talking to someone who kept forgetting what the conversation was about.

In 2013 kwam de eerste echte doorbraak met „Word2Vec”. Voor het eerst konden computers woorden op een slimme manier omzetten in getallen. Niet zomaar getallen, maar getallen die de betekenis van woorden vastlegden. „Hond” kreeg getallen die dicht bij de getallen van „kat” lagen, omdat het beide huisdieren zijn.In 2013 the first real breakthrough arrived with ‘Word2Vec’. For the first time, computers could convert words into numbers in a clever way. Not just any numbers, but numbers that captured the meaning of words. ‘Dog’ got numbers close to those of ‘cat’, because both are pets.

De grote doorbraak: transformersThe big breakthrough: transformers

Maar de echte revolutie kwam in 2017. Google-onderzoekers publiceerden een artikel met de titel „Attention Is All You Need”. Ze hadden een nieuwe manier bedacht om computers naar taal te laten kijken: transformers.But the real revolution came in 2017. Google researchers published a paper titled ‘Attention Is All You Need’. They had devised a new way of letting computers look at language: transformers.

Het probleem met de oude systemen was context. Neem deze zinnen: „Jan gaf Bob een boek. Hij was blij.” Wie was er blij — Jan of Bob? Oude systemen hadden geen idee. Ze lazen woord voor woord, als een kleuter die net leert lezen.The problem with the old systems was context. Take these sentences: ‘Jan gave Bob a book. He was happy.’ Who was happy — Jan or Bob? Old systems had no idea. They read word by word, like a pre-schooler just learning to read.

Transformers lossen dit op door naar alle woorden tegelijk te kijken. Ze gebruiken iets dat „aandacht” heet. Het model geeft elk woord een score voor hoe belangrijk het is voor elk ander woord. Bij „Hij was blij” kijkt het model terug naar „Jan” en „Bob” en bepaalt wie „hij” waarschijnlijk is.Transformers solve this by looking at all the words at once. They use something called ‘attention’. The model gives each word a score for how important it is to every other word. For ‘He was happy’, the model looks back at ‘Jan’ and ‘Bob’ and determines who ‘he’ probably is.

Het is alsof je een detective bent die alle aanwijzingen tegelijk bekijkt in plaats van ze één voor één door te nemen. Je ziet het complete plaatje en de verbanden worden duidelijk.It is like being a detective who examines all the clues at once instead of going through them one by one. You see the complete picture and the connections become clear.

Hoe maakt een computer van letters getallen?How does a computer turn letters into numbers?

Computers kunnen niet lezen. Ze werken alleen met getallen. Daarom wordt tekst eerst opgehakt in stukjes, tokens genoemd. Het is alsof je een puzzel in stukjes knipt om hem later weer in elkaar te zetten.Computers cannot read. They work only with numbers. So text is first chopped into pieces, called tokens. It is like cutting a puzzle into pieces in order to put it back together later.

Het woord „katten” wordt bijvoorbeeld „kat” en „ten”. Waarom? Zo kan het systeem de relatie tussen „kat” en andere woorden zoals „kattenluik” of „katachtig” begrijpen. Het is efficiënt: met 50.000 tokens kun je miljoenen verschillende woorden maken.The word ‘cats’, for instance, becomes ‘cat’ and ‘s’. Why? This lets the system understand the relationship between ‘cat’ and other words such as ‘cat flap’ or ‘cat-like’. It is efficient: with 50,000 tokens you can form millions of different words.

Maar tokens zijn nog steeds tekst. De volgende stap is deze om te zetten in vectoren — lijsten met getallen. Stel je het voor als coördinaten op een kaart, maar in plaats van twee dimensies (lengte en breedte) gebruik je er 300 of meer.But tokens are still text. The next step is to convert them into vectors — lists of numbers. Think of them as coordinates on a map, but instead of two dimensions (latitude and longitude) you use 300 or more.

Woorden die qua betekenis op elkaar lijken, zoals „hond” en „kat”, krijgen coördinaten dicht bij elkaar. „Auto” en „fiets” ook — het zijn beide voertuigen. Maar „hond” en „auto” staan ver uit elkaar, omdat ze weinig met elkaar te maken hebben.Words that are similar in meaning, such as ‘dog’ and ‘cat’, get coordinates close together. So do ‘car’ and ‘bicycle’ — both are vehicles. But ‘dog’ and ‘car’ are far apart, because they have little to do with each other.

Het mooie is dat je met deze vectoren kunt rekenen. Trek „man” af van „koning”, tel er „vrouw” bij op, en je komt uit bij „koningin”. De computer snapt deze relaties tussen woorden zonder te weten wat ze betekenen. Het is alsof de computer een taal leert zonder ooit de wereld gezien te hebben.The beauty is that you can do arithmetic with these vectors. Subtract ‘man’ from ‘king’, add ‘woman’, and you arrive at ‘queen’. The computer grasps these relationships between words without knowing what they mean. It is as if the computer learns a language without ever having seen the world.

Het geheim van positiesThe secret of positions

Maar er is nog een probleem. De zin „De hond bijt de man” betekent iets héél anders dan „De man bijt de hond”. De woorden zijn precies hetzelfde, maar de volgorde maakt het verschil. Hoe leer je een computer dat volgorde belangrijk is?But there is another problem. The sentence ‘The dog bites the man’ means something véry different from ‘The man bites the dog’. The words are exactly the same, but the order makes the difference. How do you teach a computer that order matters?

Het antwoord is „positionele codering”. Elk woord krijgt niet alleen een vector voor zijn betekenis, maar ook een extra set getallen die aangeeft wáár het staat in de zin. Het eerste woord krijgt andere getallen dan het tiende woord.The answer is ‘positional encoding’. Each word gets not only a vector for its meaning, but also an extra set of numbers indicating whére it sits in the sentence. The first word gets different numbers from the tenth word.

Hiervoor worden sinusgolven gebruikt — die golvende lijnen die je misschien kent van wiskunde. Waarom? Omdat sinusgolven een vaste wiskundige relatie hebben: door de golfpatronen kan het model precies berekenen op welke afstand twee woorden van elkaar staan in een zin, ook als die zin tientallen woorden lang is.Sine waves are used for this — those undulating lines you may remember from maths class. Why? Because sine waves have a fixed mathematical relationship: through the wave patterns the model can calculate exactly how far apart two words are in a sentence, even when that sentence is dozens of words long.

Leren van foutenLearning from mistakes

Een taalmodel leert net zoals wij: door fouten te maken en het dan beter te doen. Maar waar wij misschien tien keer moeten oefenen, doet een AI-model dit miljarden keren.A language model learns just like we do: by making mistakes and then doing better. But where we might need to practise ten times, an AI model does this billions of times.

Het proces is simpel. Het model krijgt een zin zoals „Het is weekend, morgen moet ik **” en moet raden wat er op de plek van de sterretjes komt. Raadt het „gitaarspelen”? Fout! Het juiste antwoord is „werken”. Het model krijgt een tikje op de vingers (in computertermen: de parameters worden aangepast) en probeert het opnieuw.The process is simple. The model is given a sentence such as ‘It’s the weekend, tomorrow I have to **’ and must guess what goes in place of the asterisks. Does it guess ‘play guitar’? Wrong! The correct answer is ‘work’. The model gets a rap on the knuckles (in computer terms: the parameters are adjusted) and tries again.

Dit proces heet „gradient descent”, wat klinkt als iets voor een bergbeklimmer maar eigenlijk betekent: „zoek de weg naar beneden”. Stel je voor dat je in het donker van een berg af moet. Je voelt met je voet waar de grond naar beneden loopt en zet een stapje die kant op. Het model herhaalt dit keer op keer en daalt zo stap voor stap af naar het laagste punt. Daar vindt het model het beste antwoord.This process is called ‘gradient descent’, which sounds like something for a mountaineer but really means: ‘find the way down’. Imagine having to descend a mountain in the dark. You feel with your foot where the ground slopes downwards and take a small step that way. The model repeats this over and over, descending step by step to the lowest point. That is where the model finds the best answer.

Het model heeft miljarden parameters — stelknoppen die bepalen hoe het reageert op invoer. GPT-3 had er 175 miljard. Van GPT-4 weten we het niet precies, maar experts schatten dat het er meer dan een biljoen heeft. Dat is een één met twaalf nullen! Elk van die parameters wordt tijdens het leren een klein beetje aangepast.The model has billions of parameters — dials that determine how it responds to input. GPT-3 had 175 billion of them. For GPT-4 we do not know exactly, but experts estimate it has more than a trillion. That is a one with twelve zeros! Each of those parameters is adjusted a tiny bit during learning.

De schaal van het geheelThe scale of it all

Illustratie: bliksem, hoogspanningsmasten en serverkasten rond een werveling van documenten die samenkomt in een gloeiend brein

De cijfers zijn duizelingwekkend. Het trainen van GPT-4 kostte naar verschillende schattingen meer dan 100 miljoen euro, hoewel OpenAI geen officiële cijfers heeft vrijgegeven. Het gebruikte evenveel elektriciteit als een kleine stad in een maand. De trainingsdata bestond uit een groot deel van het internet — Wikipedia, boeken, nieuwsartikelen, forums, alles.The figures are dizzying. Training GPT-4 cost, by various estimates, more than €100 million, although OpenAI has not released official numbers. It used as much electricity as a small town does in a month. The training data comprised a large part of the internet — Wikipedia, books, news articles, forums, everything.

Het model draaide maandenlang op duizenden van de krachtigste computers die er bestaan. Deze computers, GPU’s genaamd, zijn eigenlijk bedoeld voor videogames, maar blijken perfect voor AI. Ze kunnen duizenden berekeningen tegelijk maken.The model ran for months on thousands of the most powerful computers in existence. These computers, called GPUs, were actually designed for video games but turn out to be perfect for AI. They can perform thousands of calculations simultaneously.

Waarom zo groot? Omdat grootte ertoe doet bij taalmodellen. Een model met meer parameters kan subtielere patronen leren. Het verschil tussen 1 miljard en 100 miljard parameters is als het verschil tussen een basisschoolkind en een professor wat betreft taalvaardigheid.Why so big? Because size matters for language models. A model with more parameters can learn subtler patterns. The difference between 1 billion and 100 billion parameters is like the difference between a primary-school child and a professor in terms of language skill.

Maar er is een grens. Onderzoekers merken dat je niet eindeloos kunt blijven opschalen. Van 100 naar 200 miljard parameters maakt minder verschil dan van 1 naar 10 miljard. Het is als spieren kweken — de eerste resultaten gaan makkelijk, daarna wordt het steeds moeilijker.But there is a limit. Researchers are noticing that you cannot keep scaling up endlessly. Going from 100 to 200 billion parameters makes less difference than going from 1 to 10 billion. It is like building muscle — the first results come easily; after that it gets ever harder.

Niet alleen tekstNot just text

De nieuwste modellen kunnen meer dan alleen tekst verwerken. Ze begrijpen ook plaatjes, geluid en video. Hoe? Door alles om te zetten naar dezelfde soort getallen.The newest models can process more than just text. They also understand images, sound and video. How? By converting everything into the same kind of numbers.

Een foto bestaat uit pixels, elk met waarden voor rood, groen en blauw. Het model leert welke patronen van pixels overeenkomen met welke woorden. Een patroon dat vaak voorkomt bij het woord „hond” leert het herkennen als hond.A photo consists of pixels, each with values for red, green and blue. The model learns which patterns of pixels correspond to which words. A pattern that often occurs alongside the word ‘dog’, it learns to recognise as a dog.

Geluid werkt hetzelfde. Geluidsgolven worden omgezet in getallen. Het model leert dat bepaalde golfpatronen het geluid van blaffen zijn, en dat blaffen bij honden hoort.Sound works the same way. Sound waves are converted into numbers. The model learns that certain wave patterns are the sound of barking, and that barking belongs with dogs.

Het bijzondere is dat dit allemaal in dezelfde wiskundige ruimte gebeurt. Een foto van een hond, het woord „hond” en het geluid van blaffen krijgen vectoren die dicht bij elkaar liggen. Zo „begrijpt” het model dat ze bij elkaar horen.The remarkable thing is that all this happens in the same mathematical space. A photo of a dog, the word ‘dog’ and the sound of barking get vectors that lie close together. That is how the model ‘understands’ they belong together.

Dit opent deuren naar toepassingen die we eerder alleen in sciencefiction zagen. Een dokter kan straks een röntgenfoto uploaden samen met symptomen, en het systeem combineert beide soorten informatie voor een diagnose. Een architect kan schetsen maken terwijl hij beschrijft wat hij wil, en het model begrijpt beide vormen van informatie.This opens doors to applications we previously saw only in science fiction. Soon a doctor will be able to upload an X-ray together with symptoms, and the system will combine both kinds of information for a diagnosis. An architect can sketch while describing what he wants, and the model understands both forms of information.

Mensen houden de AI in toomPeople keep the AI in check

Hoe slim deze systemen ook lijken, ze begrijpen niets. Ze zijn heel goed in het vinden van patronen en het maken van voorspellingen, maar hebben geen idee wat ze eigenlijk zeggen. Het model dat perfect kan uitleggen hoe je een cake bakt, heeft nog nooit een oven gezien. Laat staan zelf een cake gebakken.However clever these systems seem, they understand nothing. They are very good at finding patterns and making predictions, but have no idea what they are actually saying. The model that can perfectly explain how to bake a cake has never seen an oven. Let alone baked a cake itself.

Daarom is menselijke begeleiding cruciaal. Met een techniek die RLHF heet (Reinforcement Learning from Human Feedback) leren mensen het model wat goede en slechte antwoorden zijn.That is why human guidance is crucial. Using a technique called RLHF (Reinforcement Learning from Human Feedback), people teach the model what good and bad answers are.

Het werkt zo: het model genereert verschillende antwoorden op een vraag. Mensen beoordelen deze antwoorden van best naar slechtst. Het model leert van deze beoordelingen en past zijn parameters aan om meer antwoorden te geven zoals de goede voorbeelden.It works like this: the model generates several answers to a question. People rank these answers from best to worst. The model learns from these judgements and adjusts its parameters to give more answers like the good examples.

Dit is waarom ChatGPT beleefd is en geen recepten voor bommen geeft. Niet omdat het moraal heeft, maar omdat mensen het hebben geleerd dat zulke antwoorden slecht scoren.This is why ChatGPT is polite and does not hand out bomb recipes. Not because it has morals, but because people have taught it that such answers score badly.

De keerzijdeThe downside

Er zijn ook zorgen. Deze modellen leren van tekst op internet, en internet staat vol met nepnieuws, vooroordelen en desinformatie. Als in de trainingsdata dokters meestal mannen zijn en verpleegkundigen meestal vrouwen, leert het model die vooringenomenheid en zal het die gebruiken in antwoorden.There are concerns too. These models learn from text on the internet, and the internet is full of fake news, prejudice and disinformation. If in the training data doctors are usually men and nurses usually women, the model learns that bias and will use it in its answers.

Onderzoekers werken hard om dit te verhelpen, maar het is lastig. Hoe bepaal je wat eerlijk is? Moet het model de wereld weergeven zoals die is (met alle ongelijkheden), of zoals we willen dat die is?Researchers are working hard to remedy this, but it is difficult. How do you determine what is fair? Should the model represent the world as it is (with all its inequalities), or as we want it to be?

Een ander probleem is dat niemand precies weet hoe deze modellen tot hun antwoorden komen. Met een biljoen parameters is het onmogelijk om te volgen welke berekeningen tot welk antwoord leiden. Het is een black box.Another problem is that nobody knows exactly how these models arrive at their answers. With a trillion parameters it is impossible to trace which calculations lead to which answer. It is a black box.

Dit is vooral zorgelijk bij belangrijke beslissingen. Als een AI-systeem zegt dat iemand een bepaalde ziekte heeft, willen dokters weten waarom. „Het model zegt het” is geen goede uitleg.This is especially worrying for important decisions. If an AI system says someone has a particular disease, doctors want to know why. ‘The model says so’ is not a good explanation.

Wat brengt de toekomst?What does the future hold?

We staan nog maar aan het begin. Nieuwe technieken maken modellen efficiënter. In plaats van alle parameters te gebruiken voor elke vraag, activeren „sparse” modellen alleen de relevante delen. Het is alsof je alleen de delen van je brein gebruikt die je nodig hebt.We are only at the beginning. New techniques are making models more efficient. Instead of using all parameters for every question, ‘sparse’ models activate only the relevant parts. It is like using only the parts of your brain that you need.

Federated learning laat computers van elkaar leren zonder data te delen. Je telefoon kan leren van je typegedrag zonder je berichten naar Google te sturen. Privacy en AI gaan zo hand in hand.Federated learning lets computers learn from each other without sharing data. Your phone can learn from your typing behaviour without sending your messages to Google. Privacy and AI thus go hand in hand.

Modellen beginnen ook hun eigen trainingsdata te maken. Ze genereren tekst, controleren of die klopt, en leren van hun fouten. Het is een beetje eng — AI die zichzelf verbetert zonder menselijke hulp.Models are also beginning to create their own training data. They generate text, check whether it is correct, and learn from their mistakes. It is slightly unnerving — AI improving itself without human help.

Er wordt gewerkt aan modellen die kunnen redeneren, niet alleen patronen herkennen. Die niet alleen weten dat Parijs de hoofdstad van Frankrijk is, maar ook kunnen uitleggen waarom grote steden — zoals Parijs — meestal aan rivieren liggen.Work is under way on models that can reason, not merely recognise patterns. Models that not only know Paris is the capital of France, but can also explain why large cities — like Paris — usually lie on rivers.

De kern van het verhaalThe heart of the matter

Grote taalmodellen zoals ChatGPT zijn geen magie. Het zijn rekenkundige krachtpatsers die patronen in taal hebben geleerd uit enorme hoeveelheden tekst. Ze voorspellen de meest voor de hand liggende vervolgstap op basis van wat ze eerder hebben gezien.Large language models such as ChatGPT are not magic. They are computational powerhouses that have learned patterns in language from enormous amounts of text. They predict the most likely next step based on what they have seen before.

Het is knap dat dit werkt. Het is slim bedacht en uitgevoerd. Maar uiteindelijk is het gewoon wiskunde — heel veel wiskunde. De volgende keer dat je met ChatGPT praat, weet je dat er achter elk antwoord miljarden berekeningen schuilgaan, uitgevoerd door een systeem dat is ontwikkeld en getraind door duizenden AI-experts wereldwijd.It is impressive that this works. It is cleverly conceived and executed. But in the end it is just mathematics — a great deal of mathematics. The next time you talk to ChatGPT, you will know that behind every answer lie billions of calculations, performed by a system developed and trained by thousands of AI experts worldwide.

Het is geen bewustzijn, geen begrip, geen intelligentie zoals wij die kennen. Het is patroonherkenning op een schaal die ons voorstellingsvermogen te boven gaat. En dat is misschien wel het meest fascinerende: dat je met genoeg wiskunde iets kunt maken dat zo menselijk lijkt, zonder dat het ook maar iets menselijks heeft…It is not consciousness, not understanding, not intelligence as we know it. It is pattern recognition on a scale beyond our imagination. And that may be the most fascinating part: that with enough mathematics you can build something that seems so human, without there being anything human about it at all…

Eerder verschenen op roibot.cloud, 15 juli 2025.Previously published on roibot.cloud, 15 July 2025.