LLM is de afkorting van het Engelse Large Language Model, vertaald: Groot Taal Model.
Een model is hoe iets eruit ziet. Een model van een jas is simpel: zo en zo moet de jas eruit zien. Op basis van het model kan je de jas namaken.
Een taalmodel is vele malen ingewikkelder. Er zijn eindeloos veel mogelijkheden hoe zinnen eruit kunnen zien en er zijn veel manieren om taal te gebruiken. Toch is het gelukt om te voorspellen welk woorden er achter elkaar moeten komen in de zinnen die jij als antwoord krijgt op jouw vragen*,* door zo’n LLM te ‘trainen’ met uiteenlopende teksten.
In zo’n training zitten voorbeelden en onderzoek over wat wel en niet kan in een bepaalde taal. Bijvoorbeeld de regels en gewoontes van het Engels. Niet een paar voorbeelden, maar alle Engelse teksten van hele web plus aanvullingen. Of Nederlands teksten, want er is ook veel te vinden in het Nederlands op het web.
LLM's kunnen daardoor ook in meerdere talen boeken schrijven, vragen beantwoorden, samenvattingen maken, en gesprekken voeren. Ze gebruiken ingewikkelde algoritmes en zogeheten kunstmatige neurale netwerken om de betekenis en context van woorden en zinnen in kaart te brengen. Op deze manier kunnen ze passende reacties geven, in natuurlijke taal.
Het samenstellen van een ‘passende reactie’ of antwoord is in feite statistiek, een goede gok. Het is een antwoord, dat woord voor woord wordt opgebouwd en taalkundig klopt. Maar daarin is betrouwbaarheid niet meegerekend. De betrouwbaarheid is vooral afhankelijk van alle voorbeelden waarop het model getraind is. Een LLM ‘weet’ zelf niets en houdt bij een antwoord ook niet met `alles dat je zou kunnen weten' rekening. En verzint soms dus ook iets wat logisch lijkt maar het niet is.
Chatbots zoals ChatGPT en RAG-tools zoals Perplexity maken gebruik van LLM’s. Als je het begrip generatieve AI leest, heeft dat hiermee te maken: er wordt taal gegenereerd (gemaakt).