AI is niet meer weg te denken uit de hedendaagse maatschappij. De snelheid waarmee deze nieuwe technologie de wereld verovert is ongekend en verslaat zelfs de stormachtige opmars van het internet in de tweede helft van de jaren ’90. Klanten kloppen steeds vaker aan de deur en vragen om ‘iets met AI’. Reden voor MSP Business om eens dieper te duiken in de achterkant. Waarmee moet je als MSP rekening houden wanneer je AI-oplossingen en -tools implementeert bij je klant? Wat zijn eigenlijk de kosten en hoe bereken ik dat door? In deze negendelige serie krijg je antwoord op al deze vragen.
Vorige afleveringen:
Wat is een token en waarom moet jij dat weten?
Je stuurt een vraag naar een AI-tool. Het model geeft antwoord. Je stelt een vervolgvraag, en het model reageert alsof het de hele conversatie heeft meegelezen. Dat klopt ook, maar tot op zekere hoogte. Want elk taalmodel heeft een grens aan hoeveel het tegelijk kan verwerken en onthouden. Die grens heet het contextvenster, en het is een van de meest praktische begrippen om te kennen als je AI serieus inzet.
In de vorige aflevering legden we uit wat tokens zijn: de basiseenheden waarmee taalmodellen tekst verwerken. Het contextvenster is de hoeveelheid tokens die een model in één keer kan bevatten. Alles wat binnen dat venster valt, ziet het model. Alles daarbuiten bestaat voor het model niet.
Dat venster omvat niet alleen de laatste vraag die je stelt, maar de volledige conversatie: jouw vragen, de antwoorden van het model, eventuele instructies die je vooraf hebt meegegeven en documenten die je hebt aangeleverd. Al die tekst samen moet binnen het venster passen.
De maat van dat venster verschilt per model. Gangbare modellen werken met contextvensters van 128.000 tot 200.000 tokens, wat neerkomt op 100 duizend tot 150 duizend woorden. Dat klinkt ruim, en voor de meeste toepassingen is het dat ook. Maar er zijn situaties waarin je er tegenaan loopt.
Wat gebeurt er als het venster vol is?
Een taalmodel werkt niet zoals een mens die iets vergeet omdat de herinnering vervaagt. Het is directer: wat buiten het contextvenster valt, is simpelweg niet beschikbaar. Het model kan er geen rekening mee houden, er niet naar verwijzen en er niet op voortbouwen.
In de praktijk betekent dit dat bij een zeer lang gesprek of een grote hoeveelheid aangeleverde documenten het begin van de conversatie op een gegeven moment buiten het venster valt. Het model gedraagt zich dan alsof die informatie nooit is uitgewisseld. Dat kan leiden tot inconsistente antwoorden of herhalingen van informatie die je al eerder hebt gehad.

Voor MSP’s die AI inzetten voor documentanalyse, contractreview of kennismanagement is dit relevant. Een model dat gevraagd wordt om een groot aantal documenten tegelijk te verwerken, kan daardoor minder nauwkeurig worden naarmate de invoer groter is.
Contextvenster en geheugen zijn niet hetzelfde
Een veelvoorkomend misverstand is dat een groot contextvenster gelijkstaat aan geheugen. Dat is het niet. Het contextvenster is tijdelijk: zodra een gesprek wordt afgesloten, is alles weg. Een nieuw gesprek begint altijd blanco, ongeacht hoe uitgebreid de vorige sessie was.
Echte geheugenoplossingen, waarbij relevante informatie uit eerdere gesprekken wordt opgeslagen en teruggegeven aan het model, vereisen extra techniek. Dat kan via een database die relevante fragmenten opzoekt en meestuurt in de prompt, een aanpak die bekendstaat als RAG. Daar gaan we in een latere aflevering dieper op in.
Wat betekent dit voor jouw praktijk?
Voor dagelijks gebruik in een chatinterface merk je weinig van het contextvenster. De limieten zijn ruim genoeg voor de meeste gesprekken. Maar zodra je AI inbouwt in werkprocessen, wordt het relevanter.
Een paar situaties om rekening mee te houden. Als je grote documenten aanlevert ter analyse, check dan of de totale omvang binnen het contextvenster van het gekozen model past. Als je een geautomatiseerd systeem bouwt dat lange instructies meestuurt bij elk verzoek, telt die instructie mee in het venster en blijft er minder ruimte over voor de eigenlijke taak.
Bij toepassingen die via een API lopen, en dat zal voor MSP’s die oplossingen bouwen meestal het geval zijn, werkt het contextvenster anders dan in een chatinterface. De API heeft geen automatisch geheugen. Bij elke aanroep stuur je zelf de volledige gespreksgeschiedenis mee, zodat het model weet wat er eerder is uitgewisseld. Doe je dat niet, dan begint het model elke keer opnieuw: geen herinnering aan eerdere vragen, geen context, geen opgebouwde kennis over de situatie. Elke API-call is dan in feite een nieuw gesprek.
Stuur je de geschiedenis wél mee, dan betekent dit dat een lang gesprek of uitgebreid werkproces bij elke stap meer tokens verbruikt, omdat de hele geschiedenis steeds opnieuw wordt meegestuurd. Bij het ontwerpen van een API-toepassing is het daarom slim om te bedenken hoeveel context het model echt nodig heeft, en wat je kunt weglaten.
Via de API kun je overigens actief monitoren hoe vol het venster raakt. De meeste aanbieders bieden een manier om het aantal tokens in je verzoek te tellen voordat je het verstuurt, zodat je in je applicatie een check kunt inbouwen die waarschuwt of ingrijpt voordat je de limiet bereikt. In een chatinterface ontbreekt die zichtbaarheid — je merkt het pas als het model dingen lijkt te vergeten of inconsistent wordt.
Juiste vragen stellen
En als je klanten adviseert over AI-toepassingen voor kennismanagement of documentverwerking, is de grootte van het contextvenster een van de eerste technische vragen om te stellen.
De volgende aflevering gaat over de modellen zelf: wat zijn de verschillen tussen de grote spelers, wanneer kies je welk model, en hoe weeg je dat af als MSP?
Dit is de tweede aflevering in de reeks ‘AI Business Basics’, waarin MSP Business de technologie achter AI stap voor stap uitlegt. Zonder marketingjargon, met de diepgang die je nodig hebt om er als IT-dienstverlener mee te werken, over te praten en op te bouwen.