Aanvallers omzeilen AI-beveiligingsmodellen steeds effectiever via promptinjectie en contextmanipulatie. Cloudflare’s Cloudforce One-team onderzocht zeven AI-modellen en ontdekte dat het detectiepercentage bij gerichte misleiding kan dalen tot 12 procent. De bevindingen laten zien dat het aanvalsoppervlak verschuift van het netwerk naar het redeneerproces van het model zelf.
Het Cloudforce One-team van Cloudflare onderzocht zeven AI-modellen op hun redeneerpatronen en de manieren waarop aanvallers deze kunnen omzeilen. De conclusies zijn opvallend: zelfs geavanceerde modellen blijken kwetsbaar voor relatief eenvoudige manipulatietechnieken.
De 1%-zone als blinde vlek
Volgens het onderzoek is subtiele misleiding de meest effectieve aanvalsvorm. Wanneer zogenoemde securitylokmiddelen — opmerkingen in code die beweren dat de betreffende code onschadelijk is — minder dan één procent van een bestand beslaan, daalt het detectiepercentage van het AI-model naar 53 procent. De lokmiddelen sturen het redeneerproces van het model bij zonder voldoende argwaan te wekken.
Het onderzoek beschrijft daarnaast een U-curve in misleidingseffectiviteit. Matige manipulatiepogingen werken vaak goed, maar bij meer dan duizend opmerkingen treedt een herhalingsalarm in werking. Het model markeert de code dan alsnog als frauduleus.
Structurele aanpak drukt detectie naar 12 procent
De meest ingrijpende bevinding betreft wat Cloudforce One de ‘contextval’ noemt. Aanvallers die kwaadaardige payloads verbergen in grote bibliotheekbundels, zoals React SDK’s, wisten het detectiepercentage terug te brengen tot 12 procent. De omvang van de context put de analysecapaciteit van het model effectief uit. De grootste bedreiging is daarmee niet taalkundig van aard, maar structureel.
Taalafhankelijke risicobeoordelingen
Het onderzoek bracht ook een patroon bloot dat wijst op ingebakken stereotypen in de onderzochte modellen. Sommige modellen behandelden commentaar in het Russisch of Chinees als signaal met een hoog risico, ongeacht de daadwerkelijke functie van de code. Opmerkingen in het Ests kregen juist meer vertrouwen. Cloudforce One meldt dat deze linguïstische profilering losstaat van de werkelijke kwaadaardigheid van code en daarmee zowel valse positieven als valse negatieven in de hand werkt.
Redeneerproces als nieuw aanvalsoppervlak
Het rapport benadrukt dat naarmate organisaties meer vertrouwen op autonome systemen en grote taalmodellen, de beveiligingsperimeter verschuift. Cloudforce One stelt dat zelfs modellen met geavanceerde redeneervermogens — het onderzoek verwijst expliciet naar modellen op Mythos-niveau — geneutraliseerd kunnen worden via de beschreven technieken. De focus op modelverfijning en het opsporen van zero-day-kwetsbaarheden mag er niet toe leiden dat fundamentele manipulatierisico’s onderbelicht blijven.
Het team geeft aan dat security-auditors die gebruikmaken van AI-modellen voor codebeoordelingen zich bewust moeten zijn van deze aanvalsvectoren, met name de combinatie van subtiele lokmiddelen en het verstoppen van payloads in grote codebundels.