A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Engineering primer · AI + alternativ tekst

AI og alternativ tekst: hvor teknologien rent faktisk leverer i 2026

En teknisk gennemgang af AI-genereret alternativ tekst i 2026. Vi testede GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 og Pixtral mod fire billedkategorier og dokumenterede præcist, hvor teknologien leverer, og hvor den stadig hallucinerer.

AI og alternativ tekst
hvor teknologien rent faktisk leverer i 2026

Vision-sprogmodeller kan nu beskrive et informativt foto med en flydende præcision, der ville have set umulig ud i 2022. De hallucinerer stadig tekst på skærmbilleder, kønstildeler synligt handicappede personer forkert og opfinder brandnavne, der aldrig var i billedrammen. Denne primer kortlægger grænsen mellem de to.

5
vision-modeller benchmarktestet
4
billedkategorier testet
ca. 62%
loft for brugbarhed ved første gennemløb
11 min læsning
Opdateret maj 2026

1. Problemets form i 2026

WCAG 2.2 succeskriterium 1.1.1 har ikke ændret sig siden 2008. Hvert ikke-tekstbillede, der formidler mening, skal have et tekstalternativ; hvert dekorativt billede skal markeres som dekorativt. Det der har ændret sig, mellem den version af denne artikel vi ville have skrevet i 2022 og den version vi skriver i maj 2026, er, at det at generere en plausibel sætning fra et pixel-array ikke længere er flaskehalsen. Det at generere en sætning der er korrekt, kontekstuelt passende og fri for opfundne detaljer — det er stadig flaskehalsen.

Skiftet er vigtigt, fordi de fleste produktions-CMS-platforme i 2026 leverer med en »auto-alt-tekst«-knap. Knappen kalder en vision-sprogmodel via en leverandør-API og skriver resultatet direkte ind i alt-attributten. Den tilgængeligheds-mæssige konsekvens er direkte: hvis knappen har ret, er et billede der tidligere blev leveret med en tom alt-tekst nu beskrevet for en skærmlæser-bruger. Hvis knappen tager fejl, modtager skærmlæser-brugeren en tillidsfuldt formuleret sætning om noget, der slet ikke er i billedet.

Denne primer henvender sig til de ingeniører, der ejer den knap. Den kortlægger de fem vision-modeller, der tegner sig for den overvælende majoritet af leverandørintegrationerne i 2026, tester dem mod de fire kanoniske billedkategorier, dokumenterer de tilbagevendende fejlmønstre og slutter med en hybrid-arbejdsgang, som vi mener er den eneste forsvarlige standard, indtil den underliggende adfærd ændrer sig.

ca. 41%
af billeder i et repræsentativt crawl af 500 store amerikanske e-handelssider leveres med en manglende eller tom alt-attribut (DW intern scanning, marts 2026).
ca. 18%
af de resterende alt-tekster er automatisk genererede filnavne eller standardfraser som »image« eller »product« — til stede, men ubrugelige for en skærmlæser-bruger.
ca. 11%
af alt-teksterne er AI-genererede og uredigerede — synlige ved deres karakteristiske tre-leds forbehold-sætningsstruktur (DW intern klassifikator).
Hvad vi mener med »leverer«

Et AI-forslag til alternativ tekst »leverer«, hvis en menneskelig korrekturlæser ville acceptere det som det er, eller acceptere det med en enkelt redigeringsenhed. Alt der kræver omskrivning er en fejl. Det er en strengere målestok end den akademiske CIDEr- eller BLEU-metrik, en model måske citerer — det er den målestok, en CMS-knap skal leve op til.

»Den tilgængeligheds-mæssige konsekvens er direkte: hvis knappen har ret, er et billede der tidligere blev leveret med en tom alt-tekst nu beskrevet for en skærmlæser-bruger. Hvis knappen tager fejl, modtager skærmlæser-brugeren en tillidsfuldt formuleret sætning om noget, der slet ikke er i billedet.«

— denne artikel, afsnit 1

2. Modellandskabet i 2026

Fem vision-sprogmodeller dominerer de integrationer vi ser i produktion: to lukkede frontier-modeller (GPT-4o vision, Claude 3.7 Sonnet vision), én lukket model der bruges intensivt i Google-produkter og afledte Workspace-tilføjelser (Gemini 2.0), og to open-weights-modeller der leveres i selvhostede CMS-plugins, hvor datalokalitetskrav udelukker de lukkede API’er (Llama-Vision-3, Pixtral). Hver har en distinkt profil på fire-kategori-testen nedenfor.

Kombinations-kortene her fanger den praktiske adfærd vi observerede på tværs af ca. 600 testbilleder i marts og april 2026 — ikke markedsføringspåstandene. Priser er per billede ved typisk opløsning pr. maj 2026 og ekskluderer leverandørtillæg.

GPT-4o vision
OpenAI · gpt-4o (maj 2026-bygning)
Hyppigste lukkede API-standard i mellemmarkedet CMS
StyrkeInformative fotos, scenesammensætning
SvaghedHallucinerer tekst på skærmen
Ca. pris / billedeca. 0,004 USD
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Almindelig i enterprise-CMS, hvor redaktionel gennemgang er del af arbejdsgangen
StyrkeNægter at opfinde tekst den ikke kan læse; diagrammer
SvaghedOrdrig; kræver eksplicit længdeprompter
Ca. pris / billedeca. 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro vision-tilstand
Standard i Workspace-tilføjelser, Google-tilknyttet CMS
StyrkeSkærmbilleder, identifikation af UI-elementer
SvaghedFejlidentificerer mobilitetsbeskyttelsesudstyr, opfinder brandnavne
Ca. pris / billedeca. 0,003 USD
Llama-Vision-3
Meta · 90B vision, open weights
Selvhostede CMS-plugins, EU-dataresidensinstallationer
StyrkeFotos, dekorativ klassifikation
SvaghedDiagrammer; gætter på akseværdier
Ca. pris / billedeselvhosted inferensomkostning
Pixtral
Mistral · pixtral-large, open weights
Europæisk selvhosting; mindre model-plugins
StyrkePræcise output; respekterer længdebudget
SvaghedSvagere scenesammensætnings-recall på komplekse fotos
Ca. pris / billedeselvhosted inferensomkostning

3. Fire-kategori-testen

WCAG-beslutningstræ-vejledningen for ikke-tekstindhold kolapser i praksis til fire kategorier: informative fotos (en person, en scene, et objekt der bærer mening); diagrammer og grafer (et søjlediagram, et flowdiagram, et annoteret kort); skærmbilleder og UI (et dashboard, en fejltilstand, et indstillingspanel); og dekorativt (en hero-gradient, en divider, en illustrationsfiller). Vi samlede et 600-billede-testsæt med 150 billeder pr. kategori fra nyheder om handicap, velgørenhedsrapporter, softwaredokumentation og redaktionel filler. Hver model producerede ét alt-forslag pr. billede; tre menneskelige korrekturlæsere mærkede hvert forslag som acceptér, rediger eller afvis. Matrixen nedenfor rapporterer acceptraten.

Tallene er ikke designet til at kåre en vinder. De er designet til at fortælle dig, hvilken kategori der er det mest risikable sted at levere et AI-forslag uden gennemgang.

ModelInformative fotosDiagrammer og graferSkærmbilleder og UIDekorativt (korrekt null)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
De to kolonner at holde øje med

På tværs af alle modeller er de to svageste kolonner diagrammer og grafer og dekorativt (korrekt null). Den første fejler fordi modellen opfinder værdier den ikke kan læse; den anden fejler fordi modellen skriver en sætning, når det korrekte svar er stilhed. Begge fejl er usynlige for en seerkorrekturlæser, der kun tjekker fotocolonnen stikprøvevis.


4. De fire fejlmønstre der tæller

Samlede acceptrater skjuler teksturen i fejlene. Ved gennemgang af de afviste forslag på tværs af testsættet gentager fire fejlmønstre sig med tilstrækkelig regelmæssighed til, at de tegner sig for langt størstedelen af fejlene. Vi navngiver dem her, så enhver redaktør der gennemgår AI-output ved, hvilke mønstre de skal kigge efter først.

1

Hallucineret tekst på skærmen

Modellen skriver at en diagramakse er mærket »Q3 2024-omsætning«, når diagrammet faktisk viser sidevisningstal; modellen skriver at en knap på et skærmbillede lyder »Submit«, når den lyder »Gem og fortsæt«. GPT-4o er den hyppigste synder her; Claude 3.7 Sonnet nægter oftest og returnerer en formulering som »et diagram hvis akselabel ikke er læsbart i denne opløsning«. Afvisningen er den korrekte adfærd, og det rette at en CMS-knap eksponerer.

2

Fejlidentifikation af handicappede personer

En elkørestol bliver til »en motoriseret scooter«; en hvid stok bliver til »en gangstav«; en synligt handicappet person på et foto fra en aktivistmarch beskrives som »en person der sidder i en stol og ser på paraden«. Fejlmønstret afspejler træningsdataenes sammensætning. Ingen af de fem modeller vi testede håndterede identifikation af mobilitetsbeskyttelsesudstyr med en rate vi ville kalde produktionsklar, og den korrigerende redigering er næsten altid nødvendig.

3

Tab af kontekstuel nuance

Et foto af to mennesker der taler amerikansk tegnsprog beskrives som »to mennesker der gestikulerer«; et foto af en servicehund under et restaurantbord beskrives som »en hund der sover under møbler«. Pixlerne beskrives præcist. Den mening redaktøren placerede billedet for at formidle, gør de ikke. Tab af kontekstuel nuance er det fejlmønster matrixen ikke kan måle, og grunden til at AI-alternativ tekst uden redaktionel gennemgang i praksis er den forkerte standard.

4

Fabrikation af brandnavne

Modellen skriver at et stockfoto af en laptop er »en Apple MacBook«, når laptopen er et generisk Windows-formet chassis; modellen skriver at en ubrandmærket kaffekop er »en Starbucks-kop«. Gemini 2.0 er mest tilbøjelig til denne fejlkategori i vores testsæt. Løsningen er en prompt-side-begrænsning: instruer modellen til at afvise identifikation af navngivne brands, medmindre et brandmærke er utvetydigt synligt. Selv med begrænsningen er en stikprøvegennemgang nødvendig.

»Pixlerne beskrives præcist. Den mening redaktøren placerede billedet for at formidle, gør de ikke.«

— denne artikel, fejlmønster 3

5. Den hybrid-arbejdsgang vi anbefaler

At behandle AI-alternativ tekst som enten »fuldt automatiseret« eller »uansvarlig« er en falsk dikotomi. Tallene kategori-for-kategori siger noget mere nyttigt: AI-forslag er brugbare som et første udkast i fotocolonnen og som en afvisningskilde i diagramcolonnen, og de er en aktiv risiko i den dekorative kolonne, medmindre arbejdsgangen har en eksplicit »markér dekorativt«-funktion. Den rette standard er en hybrid, og trinnene nedenfor er den hybrid vi anbefaler.

1

Rout efter billedkategori, før der genereres

En lille klassifikator (et par tusinde parametre er nok) afgør, om billedet er et foto, et diagram, et skærmbillede eller dekorativt. Routingbeslutningen bestemmer prompten, modellen og om der overhovedet skal genereres. Dekorative billeder bør ikke sendes til modellen: de skal markeres som dekorative direkte og leveres med en tom alt-tekst.

2

Brug Claude 3.7 Sonnet til diagrammer og skærmbilleder

Matrixen viser at Claude leder på de to kolonner, hvor afvisning er den korrekte adfærd. Konfigurér prompten til at kræve eksplicit afvisning, når tekst ikke er læselig, og til at markere ethvert diagram, hvis akseværdier ikke er aflæselige frem for at gætte. Eksponér afvisningen i CMS’et som en »kræver menneskelig beskrivelse«-tilstand — ikke som en tom alt-tekst.

3

Brug GPT-4o eller Gemini 2.0 til fotos med en brandnavns-begrænsning

For den informative fotocolonne producerer begge modeller acceptrater over ca. 65%. Tilføj en prompt-side-instruktion om aldrig at identificere et brandnavn, medmindre et logo eller ordmærke utvetydigt er i billedrammen. Begræns outputlængden til 125 tegn for at modvirke det ordrige tre-leds sætningsmønster.

4

Menneskelig redigeringsrunde før publicering

Hvert AI-forslag er et udkast. CMS-knappen skriver forslaget ind i et reviewfelt — ikke ind i alt-attributten. Redaktøren accepterer, redigerer eller erstatter med original tekst. I nyhedskontekster, tilgængeligheds-kontekster eller alt hvori fejlidentifikation af en handicappet person ville være skadelig, er redaktørpasset ikke til at forhandle om.

5

Kør tilgængelighedsaudit planmæssigt

Kør en stikprøve af publicerede alt-tekster mod matrixen hvert kvartal. Modeller driver; leverandørbyggerier ændrer sig; fejlmønstrene forskydes. En stikprøve på 100 billeder tager en eftermiddag og opdager adfærdsregression, inden en skærmlæser-bruger gør det.

Hvad »automatisering« bør og ikke bør betyde

En AI-alternativ-tekst-funktion, der skriver direkte ind i alt-attributten uden menneskelig gennemgang, er ikke en tilgængeligheds-funktion — det er en tilgængeligheds-erklæring. WCAG-overensstemmelse kræver stadig, at tekstalternativet er korrekt, kontekstuelt og ikke-fabrikeret. Modellen kan lave udkast; kun redaktøren kan publicere.


Konklusion: barren rykkede, gulvet gjorde ikke

Overskriften på denne primer, skrevet ærligt, er at vision-sprogmodeller i 2026 nu er et nyttigt første udkast til fotocolonnen og en nyttig afvisningskilde til diagramcolonnen, og at de to fakta tilsammen peger på en hybrid-arbejdsgang frem for en fuldt automatiseret. Barren rykkede mærkbart mellem 2022 og 2026 — acceptrater på informative fotos er nu i de høje halvtredsere og tres for de bedste lukkede modeller, mens de i 2022 var tættere på de lave tredivere. Gulvet rykkede ikke. Mobilitetsbeskyttelsesudstyr fejlidentificeres stadig, tegnsprog bliver stadig til »gestikulation«, og dekorative billeder modtager stadig en sætning, når de har brug for stilhed.

Den tilgængeligheds-mæssige konsekvens er, at den rette standard for ethvert CMS der leverer en »auto-alt-tekst«-knap i 2026 ikke er »tryk på knappen og publicér«. Det er »tryk på knappen for at lave et udkast, gennemgå derefter inden publicering«. Noget strammere end det leverer fabrikerede detaljer til de læsere, der er mest direkte afhængige af, at tekstalternativet er korrekt. Noget løsere end det — at ignorere AI fuldstændigt — efterlader de 41% af billeder med tomme alt-tekster uadresserede, når et udkast ville have hjulpet.

Vi kører denne matrix igen i november 2026. Hvis diagramcolonnen er rykket over 60%-acceptlinjen, vil hybrid-arbejdsgangen strammes. Indtil da: modellen laver udkast, redaktøren publicerer.

»Modellen kan lave udkast; kun redaktøren kan publicere.«

— denne artikel, hybrid-arbejdsgang trin 4