A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Engineering primer · AI + alternatieve tekst

AI en alternatieve tekst: waar de technologie daadwerkelijk levert in 2026

Een engineering primer over de stand van AI-gegenereerde alternatieve tekst in 2026. We testten GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 en Pixtral op vier beeldcategorieën en documenteerden waar de technologie levert en waar ze nog hallucinaties produceert.

AI en alternatieve tekst
waar de technologie daadwerkelijk levert in 2026

Vision-language-modellen kunnen een informatieve foto nu met een vlotheid beschrijven die in 2022 onmogelijk had geleken. Ze hallucineren nog steeds tekst op screenshots, kennen het geslacht van zichtbaar gehandicapte personen verkeerd toe, en verzinnen merknamen die nooit in beeld waren. Deze primer brengt de grens tussen beide in kaart.

5
vision-modellen getest
4
beeldcategorieën getest
ca. 62%
plafond eerste-pass bruikbaarheid
11 min lezen
Bijgewerkt mei 2026

1. De aard van het probleem in 2026

WCAG 2.2-succescriterium 1.1.1 is niet gewijzigd sinds 2008. Elke niet-tekstafbeelding die betekenis overbrengt, heeft een tekstalternatief nodig; elke decoratieve afbeelding moet als decoratief worden gemarkeerd. Wat wel is veranderd, tussen de versie van dit artikel die we in 2022 hadden geschreven en de versie die we in mei 2026 schrijven, is dat het genereren van een aannemelijk klinkende zin uit een pixelarray niet langer het knelpunt is. Het genereren van een zin die correct, contextueel passend en vrij van verzonnen details is, nog steeds wel.

Die verschuiving is relevant omdat de meeste productie-CMS-platforms in 2026 een knop voor automatische alternatieve tekst hebben. Die knop roept een vision-language-model aan via een vendor-API en schrijft het resultaat rechtstreeks in het alt-attribuut. De toegankelijkheidsconsequentie is direct: als de knop het goed heeft, wordt een afbeelding die eerder met een leeg alt werd geleverd nu beschreven aan een schermlezergebruiker. Als de knop het fout heeft, ontvangt de schermlezergebruiker een zelfverzekerd geformuleerde zin over iets wat niet in de afbeelding staat.

Deze primer is bedoeld voor de engineers die die knop beheren. Het inventariseert de vijf vision-modellen die in 2026 verantwoordelijk zijn voor de overgrote meerderheid van vendor-integraties, test elk model op de vier canonieke beeldcategorieën, documenteert de terugkerende faalpatronen en sluit af met een hybride werkwijze die naar ons oordeel de enige verdedigbare standaard is totdat het onderliggende gedrag verandert.

ca. 41%
van de afbeeldingen in een representatieve crawl van 500 grote Amerikaanse e-commercepagina’s worden geleverd met een ontbrekend of leeg alt-attribuut (DW interne scan, maart 2026).
ca. 18%
van de resterende alts zijn automatisch gegenereerde bestandsnamen of standaardzinnen zoals “afbeelding” of “product” — aanwezig, maar nutteloos voor een schermlezergebruiker.
ca. 11%
van de alts zijn AI-gegenereerd en onbewerkt — herkenbaar aan hun kenmerkende drieclauzule-zinstructuur met voorbehouden (DW interne classifier).
Wat wij bedoelen met “levert”

Een AI-kandidaat voor alternatieve tekst “levert” als een menselijke reviewer hem ongewijzigd zou accepteren, of na een aanpassing van één token. Alles wat een herschrijving vereist, geldt als een misser. Dit is een strengere maatstaf dan de academische CIDEr- of BLEU-metriek die een model mogelijk aanhaalt — het is de maatstaf die een CMS-knop moet halen.

”De toegankelijkheidsconsequentie is direct: als de knop het goed heeft, wordt een afbeelding die eerder met een leeg alt werd geleverd nu beschreven aan een schermlezergebruiker. Als de knop het fout heeft, ontvangt de schermlezergebruiker een zelfverzekerd geformuleerde zin over iets wat niet in de afbeelding staat.”

— dit artikel, sectie 1

2. Het modellandschap in 2026

Vijf vision-language-modellen domineren de integraties die we in productie zien: twee gesloten frontiermodellen (GPT-4o vision, Claude 3.7 Sonnet vision), één gesloten model dat veel wordt gebruikt in Google-producten en downstream Workspace-add-ons (Gemini 2.0), en twee open-weights-modellen die worden geleverd in zelf-gehoste CMS-plugins waar gegevenslokalisatievereisten de gesloten API’s uitsluiten (Llama-Vision-3, Pixtral). Elk model heeft een eigen profiel op de vier-categorieëntest hieronder.

De combo-kaarten hier geven het praktische gedrag weer dat wij observeerden op circa 600 testafbeeldingen in maart en april 2026, niet de marketingclaims. Kosten zijn per afbeelding bij typische resolutie per mei 2026 en exclusief vendor-opslag.

GPT-4o vision
OpenAI · gpt-4o (build mei 2026)
Meest gebruikte gesloten-API-standaard in middelgrote CMS
Sterk inInformatieve foto’s, scènecompositie
Zwak inHallucineert schermtekst
Ca. kosten per afbeeldingca. $ 0,004
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Veel gebruikt in enterprise-CMS waar redactionele review deel uitmaakt van de werkstroom
Sterk inWeigert tekst te verzinnen die niet leesbaar is; grafieken
Zwak inUitvoerig; vereist expliciete lengterichtlijn in de prompt
Ca. kosten per afbeeldingca. $ 0,005
Gemini 2.0
Google · gemini-2.0-pro vision mode
Standaard in Workspace-add-ons, Google-adjacent CMS
Sterk inScreenshots, identificatie van UI-elementen
Zwak inIdentificeert mobiliteitshulpmiddelen verkeerd, verzint merknamen
Ca. kosten per afbeeldingca. $ 0,003
Llama-Vision-3
Meta · 90B vision, open weights
Zelf-gehoste CMS-plugins, EU-gegevenslokalisatie-deployments
Sterk inFoto’s, decoratieve classificatie
Zwak inGrafieken; raadt aswaarden
Ca. kosten per afbeeldingzelf-gehoste inferentiekosten
Pixtral
Mistral · pixtral-large, open weights
Europese zelf-hosting; kleinere-model-plugins
Sterk inBeknopte uitvoer; respecteert lengtebudget
Zwak inLagere scènecompositieterugroe op complexe foto’s
Ca. kosten per afbeeldingzelf-gehoste inferentiekosten

3. De vier-categorieëntest

De WCAG-beslisboomrichtlijnen voor niet-tekstinhoud reduceren zich in de praktijk tot vier categorieën: informatieve foto’s (een persoon, een scène, een object dat betekenis draagt); grafieken en diagrammen (een staafdiagram, een stroomdiagram, een geannoteerde kaart); screenshots en UI (een dashboard, een foutstatus, een instellingenpaneel); en decoratief (een herokleurverloop, een scheidingslijn, een invulillustratie). We stelden een testset van 600 afbeeldingen samen met 150 afbeeldingen per categorie uit nieuws over handicaps, liefdadigheidsrapporten, softwaredocumentatie en redactionele invulling. Elk model produceerde één alt-kandidaat per afbeelding; drie menselijke reviewers beoordeelden elke kandidaat als accepteren, bewerken of afwijzen. De matrix hieronder toont het acceptatiepercentage.

De cijfers zijn niet bedoeld om een winnaar te kronen. Ze zijn bedoeld om aan te geven welke categorie het riskantste is om een AI-kandidaat te publiceren zonder review.

ModelInformatieve foto’sGrafieken & diagrammenScreenshots & UIDecoratief (correct null)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
De twee kolommen om in de gaten te houden

Bij elk model zijn de twee zwakste kolommen grafieken & diagrammen en decoratief (correct null). De eerste faalt omdat het model waarden verzint die het niet kan lezen; de tweede faalt omdat het model een zin schrijft terwijl het juiste antwoord stilte is. Beide fouten zijn onzichtbaar voor een ziende reviewer die alleen steekproefsgewijs de fotocolom controleert.


4. De vier faalpatronen die er toe doen

Geaggregeerde acceptatiepercentages verhullen de aard van de fouten. Bij het doornemen van de afgewezen kandidaten in de testset komen vier faalpatronen regelmatig genoeg voor dat ze verantwoordelijk zijn voor de grote meerderheid van missers. We benoemen ze hier zodat elke editor die AI-uitvoer beoordeelt weet welke patronen het eerst te zoeken.

1

Gehallucineerde schermtekst

Het model schrijft dat een grafiekas is gelabeld als “Q3 2024-omzet” terwijl de grafiek paginaweergavetelling toont; het model schrijft dat de knop op een screenshot “Verzenden” staat terwijl er “Opslaan en doorgaan” staat. GPT-4o is hier de grootste overttreder; Claude 3.7 Sonnet weigert het vaakst en retourneert een formulering als “een grafiek waarvan het aslabel bij deze resolutie niet leesbaar is”. De weigering is het correcte gedrag, en het juiste gegeven voor een CMS-knop om te tonen.

2

Verkeerde identificatie van gehandicapte personen

Een elektrische rolstoel wordt “een gemotoriseerde scooter”; een witte stok wordt “een wandelstok”; een zichtbaar gehandicapte persoon op een foto van een activistendemonstratie wordt beschreven als “een persoon die op een stoel zit en de parade bekijkt”. Het foutpatroon weerspiegelt de samenstelling van de trainingsdata. Geen van de vijf modellen die wij testten handelde mobiliteitshulpmiddelidentificatie op een niveau dat wij productieklaar zouden noemen, en de correcte bewerking is vrijwel altijd nodig.

3

Verlies van contextuele nuance

Een foto van twee mensen die Amerikaanse gebarentaal gebruiken wordt beschreven als “twee mensen die gebaren maken”; een foto van een geleidehond onder een restauranttafel wordt beschreven als “een hond die onder meubels slaapt”. De pixels worden nauwkeurig beschreven. De betekenis die de editor met de afbeelding wilde overbrengen, niet. Contextueel nuanceverlies is het faalpatroon dat de matrix niet kan meten, en de reden waarom AI-alternatieve tekst zonder redactionele review in de praktijk de verkeerde standaard is.

4

Verzonnen merknamen

Het model schrijft dat een stockfoto van een laptop “een Apple MacBook” is terwijl het een generiek Windows-chassis betreft; het model schrijft dat een ongemerkt koffiekopje “een Starbucks-beker” is. Gemini 2.0 is het meest vatbaar voor deze foutcategorie in onze testset. De oplossing zit aan de promptkant: instrueer het model om merkidentificatie te weigeren tenzij een merklogo ondubbelzinnig zichtbaar is. Zelfs met die beperking blijft steekproefsgewijze controle noodzakelijk.

”De pixels worden nauwkeurig beschreven. De betekenis die de editor met de afbeelding wilde overbrengen, niet.”

— dit artikel, faalpatroon 3

5. De hybride werkwijze die wij aanbevelen

AI-alternatieve tekst behandelen als ofwel “volledig geautomatiseerd” ofwel “onverantwoord” is een valse tegenstelling. De cijfers per categorie zeggen iets nuttiger: AI-kandidaten zijn bruikbaar als eerste concept in de fotocolom en als weigeringsbron in de grafiekkolom, en ze vormen een actief risico in de decoratieve kolom tenzij de werkstroom een expliciete “markeer als decoratief”-mogelijkheid heeft. De juiste standaard is een hybride, en de stappen hieronder vormen de hybride die wij aanbevelen.

1

Categoriseer per beeldtype vóór het genereren

Een kleine classifier (een paar duizend parameters volstaat) bepaalt of de afbeelding een foto, een grafiek, een screenshot of decoratief is. De routeringsbeslissing bepaalt de prompt, het model en of er überhaupt iets gegenereerd moet worden. Decoratieve afbeeldingen mogen niet naar het model worden gestuurd: ze dienen direct als decoratief te worden gemarkeerd en met een leeg alt te worden geleverd.

2

Gebruik Claude 3.7 Sonnet voor grafieken en screenshots

De matrix toont dat Claude voorop loopt in de twee kolommen waar weigering het correcte gedrag is. Configureer de prompt zodat expliciete weigering verplicht is als tekst niet leesbaar is, en om elke grafiek waarvan de aswaarden niet leesbaar zijn te markeren in plaats van te raden. Toon de weigering in het CMS als de status “menselijke beschrijving vereist”, niet als een leeg alt.

3

Gebruik GPT-4o of Gemini 2.0 voor foto’s, met een merknaambeperking

In de informatiefoto-kolom produceren beide modellen acceptatiepercentages boven ca. 65%. Voeg een promptinstructie toe om nooit een merknaam te noemen tenzij een logo of woordmerk ondubbelzinnig in beeld is. Beperk de uitvoerlengte tot 125 tekens om het uitvoerige drieclauzule-zinpatroon te ontmoedigen.

4

Menselijke bewerkingsronde voor publicatie

Elke AI-kandidaat is een concept. De CMS-knop schrijft de kandidaat in een reviewveld, niet in het alt-attribuut. De editor accepteert, bewerkt of vervangt door originele tekst. Voor nieuwscontexten, toegankelijkheidscontexten of situaties waar verkeerde identificatie van een persoon met een beperking schadelijk zou zijn, is de bewerkingsronde niet onderhandelbaar.

5

Audit op een vast schema

Voer elk kwartaal een steekproef uit van gepubliceerde alts tegen de matrix. Modellen driften; vendor-builds veranderen; de faalpatronen verschuiven. Een steekproef van 100 afbeeldingen kost een middag en vangt gedragsregressie op voordat een schermlezergebruiker dat doet.

Wat “automatisering” wel en niet betekent

Een AI-functie voor alternatieve tekst die rechtstreeks in het alt-attribuut schrijft zonder menselijke review is geen toegankelijkheidsfunctie — het is een toegankelijkheidsverklaring. WCAG-conformiteit vereist nog steeds dat het tekstalternatief correct, contextueel en niet-gefabriceerd is. Het model kan een concept schrijven; alleen de editor kan publiceren.


Conclusie: de lat is verhoogd, de vloer niet

De eerlijke kop van deze primer is dat vision-language-modellen in 2026 nu een bruikbaar eerste concept zijn voor de fotocolom en een bruikbare weigeringsbron voor de grafiekkolom, en dat die twee feiten samen een hybride werkwijze impliceren in plaats van een volledig geautomatiseerde. De lat is aanzienlijk verschoven tussen 2022 en 2026 — acceptatiepercentages op informatieve foto’s liggen voor de beste gesloten modellen nu in de hoge zestig procent, terwijl ze in 2022 dichter bij de lage dertig procent lagen. De vloer niet. Mobiliteitshulpmiddelen worden nog steeds verkeerd geïdentificeerd, gebarentaal wordt nog steeds “gebaren”, en decoratieve afbeeldingen krijgen nog steeds een zin terwijl ze stilte nodig hebben.

De toegankelijkheidsconsequentie is dat de juiste standaard voor elk CMS dat in 2026 een knop voor automatische alternatieve tekst levert, niet is “druk op de knop en publiceer”. Het is “druk op de knop voor een concept, en review dan voor publicatie”. Strikter dan dat levert verzonnen details op aan de lezers die het meest direct afhankelijk zijn van een correct tekstalternatief. Minder strikt dan dat — AI volledig negeren — laat de 41% afbeeldingen met lege alts onaangepakt terwijl een concept had geholpen.

We herhalen deze matrix in november 2026. Als de grafiekkolom boven de 60%-acceptatielijn is gestegen, zal de hybride werkwijze worden aangescherpt. Tot die tijd schrijft de knop een concept, en publiceert de editor.

”Het model kan een concept schrijven; alleen de editor kan publiceren.”

— dit artikel, hybride werkwijze stap 4