AI og alternativ tekst
hvor teknologien rent faktisk leverer i 2026

Vision-sprogmodeller kan nu beskrive et informativt foto med en flydende præcision, der ville have set umulig ud i 2022. De hallucinerer stadig tekst på skærmbilleder, kønstildeler synligt handicappede personer forkert og opfinder brandnavne, der aldrig var i billedrammen. Denne primer kortlægger grænsen mellem de to.

vision-modeller benchmarktestet

billedkategorier testet

ca. 62%

loft for brugbarhed ved første gennemløb

Af Disability Worlds ingeniørredaktion

11 min læsning

Opdateret maj 2026

Grundlag

1. Problemets form i 2026

WCAG 2.2 succeskriterium 1.1.1 har ikke ændret sig siden 2008. Hvert ikke-tekstbillede, der formidler mening, skal have et tekstalternativ; hvert dekorativt billede skal markeres som dekorativt. Det der har ændret sig, mellem den version af denne artikel vi ville have skrevet i 2022 og den version vi skriver i maj 2026, er, at det at generere en plausibel sætning fra et pixel-array ikke længere er flaskehalsen. Det at generere en sætning der er korrekt, kontekstuelt passende og fri for opfundne detaljer — det er stadig flaskehalsen.

Skiftet er vigtigt, fordi de fleste produktions-CMS-platforme i 2026 leverer med en »auto-alt-tekst«-knap. Knappen kalder en vision-sprogmodel via en leverandør-API og skriver resultatet direkte ind i alt-attributten. Den tilgængeligheds-mæssige konsekvens er direkte: hvis knappen har ret, er et billede der tidligere blev leveret med en tom alt-tekst nu beskrevet for en skærmlæser-bruger. Hvis knappen tager fejl, modtager skærmlæser-brugeren en tillidsfuldt formuleret sætning om noget, der slet ikke er i billedet.

Denne primer henvender sig til de ingeniører, der ejer den knap. Den kortlægger de fem vision-modeller, der tegner sig for den overvælende majoritet af leverandørintegrationerne i 2026, tester dem mod de fire kanoniske billedkategorier, dokumenterer de tilbagevendende fejlmønstre og slutter med en hybrid-arbejdsgang, som vi mener er den eneste forsvarlige standard, indtil den underliggende adfærd ændrer sig.

ca. 41%

af billeder i et repræsentativt crawl af 500 store amerikanske e-handelssider leveres med en manglende eller tom alt-attribut (DW intern scanning, marts 2026).

ca. 18%

af de resterende alt-tekster er automatisk genererede filnavne eller standardfraser som »image« eller »product« — til stede, men ubrugelige for en skærmlæser-bruger.

ca. 11%

af alt-teksterne er AI-genererede og uredigerede — synlige ved deres karakteristiske tre-leds forbehold-sætningsstruktur (DW intern klassifikator).

Hvad vi mener med »leverer«

Et AI-forslag til alternativ tekst »leverer«, hvis en menneskelig korrekturlæser ville acceptere det som det er, eller acceptere det med en enkelt redigeringsenhed. Alt der kræver omskrivning er en fejl. Det er en strengere målestok end den akademiske CIDEr- eller BLEU-metrik, en model måske citerer — det er den målestok, en CMS-knap skal leve op til.

»Den tilgængeligheds-mæssige konsekvens er direkte: hvis knappen har ret, er et billede der tidligere blev leveret med en tom alt-tekst nu beskrevet for en skærmlæser-bruger. Hvis knappen tager fejl, modtager skærmlæser-brugeren en tillidsfuldt formuleret sætning om noget, der slet ikke er i billedet.«

— denne artikel, afsnit 1

Landskab

2. Modellandskabet i 2026

Fem vision-sprogmodeller dominerer de integrationer vi ser i produktion: to lukkede frontier-modeller (GPT-4o vision, Claude 3.7 Sonnet vision), én lukket model der bruges intensivt i Google-produkter og afledte Workspace-tilføjelser (Gemini 2.0), og to open-weights-modeller der leveres i selvhostede CMS-plugins, hvor datalokalitetskrav udelukker de lukkede API’er (Llama-Vision-3, Pixtral). Hver har en distinkt profil på fire-kategori-testen nedenfor.

Kombinations-kortene her fanger den praktiske adfærd vi observerede på tværs af ca. 600 testbilleder i marts og april 2026 — ikke markedsføringspåstandene. Priser er per billede ved typisk opløsning pr. maj 2026 og ekskluderer leverandørtillæg.

Hyppigste lukkede API-standard i mellemmarkedet CMS

StyrkeInformative fotos, scenesammensætning

SvaghedHallucinerer tekst på skærmen

Ca. pris / billedeca. 0,004 USD

Almindelig i enterprise-CMS, hvor redaktionel gennemgang er del af arbejdsgangen

StyrkeNægter at opfinde tekst den ikke kan læse; diagrammer

SvaghedOrdrig; kræver eksplicit længdeprompter

Ca. pris / billedeca. 0,005 USD

Standard i Workspace-tilføjelser, Google-tilknyttet CMS

StyrkeSkærmbilleder, identifikation af UI-elementer

SvaghedFejlidentificerer mobilitetsbeskyttelsesudstyr, opfinder brandnavne

Ca. pris / billedeca. 0,003 USD

Selvhostede CMS-plugins, EU-dataresidensinstallationer

StyrkeFotos, dekorativ klassifikation

SvaghedDiagrammer; gætter på akseværdier

Ca. pris / billedeselvhosted inferensomkostning

Europæisk selvhosting; mindre model-plugins

StyrkePræcise output; respekterer længdebudget

SvaghedSvagere scenesammensætnings-recall på komplekse fotos

Ca. pris / billedeselvhosted inferensomkostning

Reference

3. Fire-kategori-testen

WCAG-beslutningstræ-vejledningen for ikke-tekstindhold kolapser i praksis til fire kategorier: informative fotos (en person, en scene, et objekt der bærer mening); diagrammer og grafer (et søjlediagram, et flowdiagram, et annoteret kort); skærmbilleder og UI (et dashboard, en fejltilstand, et indstillingspanel); og dekorativt (en hero-gradient, en divider, en illustrationsfiller). Vi samlede et 600-billede-testsæt med 150 billeder pr. kategori fra nyheder om handicap, velgørenhedsrapporter, softwaredokumentation og redaktionel filler. Hver model producerede ét alt-forslag pr. billede; tre menneskelige korrekturlæsere mærkede hvert forslag som acceptér, rediger eller afvis. Matrixen nedenfor rapporterer acceptraten.

Tallene er ikke designet til at kåre en vinder. De er designet til at fortælle dig, hvilken kategori der er det mest risikable sted at levere et AI-forslag uden gennemgang.

Model	Informative fotos	Diagrammer og grafer	Skærmbilleder og UI	Dekorativt (korrekt null)
GPT-4o vision	71%	34%	52%	41%
Claude 3.7 Sonnet vision	68%	49%	61%	58%
Gemini 2.0	66%	38%	64%	44%
Llama-Vision-3 (90B)	62%	21%	47%	53%
Pixtral large	57%	26%	42%	48%

De to kolonner at holde øje med

På tværs af alle modeller er de to svageste kolonner diagrammer og grafer og dekorativt (korrekt null). Den første fejler fordi modellen opfinder værdier den ikke kan læse; den anden fejler fordi modellen skriver en sætning, når det korrekte svar er stilhed. Begge fejl er usynlige for en seerkorrekturlæser, der kun tjekker fotocolonnen stikprøvevis.

Diagnostik

4. De fire fejlmønstre der tæller

Samlede acceptrater skjuler teksturen i fejlene. Ved gennemgang af de afviste forslag på tværs af testsættet gentager fire fejlmønstre sig med tilstrækkelig regelmæssighed til, at de tegner sig for langt størstedelen af fejlene. Vi navngiver dem her, så enhver redaktør der gennemgår AI-output ved, hvilke mønstre de skal kigge efter først.

Hallucineret tekst på skærmen

Modellen skriver at en diagramakse er mærket »Q3 2024-omsætning«, når diagrammet faktisk viser sidevisningstal; modellen skriver at en knap på et skærmbillede lyder »Submit«, når den lyder »Gem og fortsæt«. GPT-4o er den hyppigste synder her; Claude 3.7 Sonnet nægter oftest og returnerer en formulering som »et diagram hvis akselabel ikke er læsbart i denne opløsning«. Afvisningen er den korrekte adfærd, og det rette at en CMS-knap eksponerer.

Fejlidentifikation af handicappede personer

En elkørestol bliver til »en motoriseret scooter«; en hvid stok bliver til »en gangstav«; en synligt handicappet person på et foto fra en aktivistmarch beskrives som »en person der sidder i en stol og ser på paraden«. Fejlmønstret afspejler træningsdataenes sammensætning. Ingen af de fem modeller vi testede håndterede identifikation af mobilitetsbeskyttelsesudstyr med en rate vi ville kalde produktionsklar, og den korrigerende redigering er næsten altid nødvendig.

Tab af kontekstuel nuance

Et foto af to mennesker der taler amerikansk tegnsprog beskrives som »to mennesker der gestikulerer«; et foto af en servicehund under et restaurantbord beskrives som »en hund der sover under møbler«. Pixlerne beskrives præcist. Den mening redaktøren placerede billedet for at formidle, gør de ikke. Tab af kontekstuel nuance er det fejlmønster matrixen ikke kan måle, og grunden til at AI-alternativ tekst uden redaktionel gennemgang i praksis er den forkerte standard.

Fabrikation af brandnavne

Modellen skriver at et stockfoto af en laptop er »en Apple MacBook«, når laptopen er et generisk Windows-formet chassis; modellen skriver at en ubrandmærket kaffekop er »en Starbucks-kop«. Gemini 2.0 er mest tilbøjelig til denne fejlkategori i vores testsæt. Løsningen er en prompt-side-begrænsning: instruer modellen til at afvise identifikation af navngivne brands, medmindre et brandmærke er utvetydigt synligt. Selv med begrænsningen er en stikprøvegennemgang nødvendig.

»Pixlerne beskrives præcist. Den mening redaktøren placerede billedet for at formidle, gør de ikke.«

— denne artikel, fejlmønster 3

Playbook

5. Den hybrid-arbejdsgang vi anbefaler

At behandle AI-alternativ tekst som enten »fuldt automatiseret« eller »uansvarlig« er en falsk dikotomi. Tallene kategori-for-kategori siger noget mere nyttigt: AI-forslag er brugbare som et første udkast i fotocolonnen og som en afvisningskilde i diagramcolonnen, og de er en aktiv risiko i den dekorative kolonne, medmindre arbejdsgangen har en eksplicit »markér dekorativt«-funktion. Den rette standard er en hybrid, og trinnene nedenfor er den hybrid vi anbefaler.

Rout efter billedkategori, før der genereres

En lille klassifikator (et par tusinde parametre er nok) afgør, om billedet er et foto, et diagram, et skærmbillede eller dekorativt. Routingbeslutningen bestemmer prompten, modellen og om der overhovedet skal genereres. Dekorative billeder bør ikke sendes til modellen: de skal markeres som dekorative direkte og leveres med en tom alt-tekst.

Brug Claude 3.7 Sonnet til diagrammer og skærmbilleder

Matrixen viser at Claude leder på de to kolonner, hvor afvisning er den korrekte adfærd. Konfigurér prompten til at kræve eksplicit afvisning, når tekst ikke er læselig, og til at markere ethvert diagram, hvis akseværdier ikke er aflæselige frem for at gætte. Eksponér afvisningen i CMS’et som en »kræver menneskelig beskrivelse«-tilstand — ikke som en tom alt-tekst.

Brug GPT-4o eller Gemini 2.0 til fotos med en brandnavns-begrænsning

For den informative fotocolonne producerer begge modeller acceptrater over ca. 65%. Tilføj en prompt-side-instruktion om aldrig at identificere et brandnavn, medmindre et logo eller ordmærke utvetydigt er i billedrammen. Begræns outputlængden til 125 tegn for at modvirke det ordrige tre-leds sætningsmønster.

Menneskelig redigeringsrunde før publicering

Hvert AI-forslag er et udkast. CMS-knappen skriver forslaget ind i et reviewfelt — ikke ind i alt-attributten. Redaktøren accepterer, redigerer eller erstatter med original tekst. I nyhedskontekster, tilgængeligheds-kontekster eller alt hvori fejlidentifikation af en handicappet person ville være skadelig, er redaktørpasset ikke til at forhandle om.

Kør tilgængelighedsaudit planmæssigt

Kør en stikprøve af publicerede alt-tekster mod matrixen hvert kvartal. Modeller driver; leverandørbyggerier ændrer sig; fejlmønstrene forskydes. En stikprøve på 100 billeder tager en eftermiddag og opdager adfærdsregression, inden en skærmlæser-bruger gør det.

Hvad »automatisering« bør og ikke bør betyde

En AI-alternativ-tekst-funktion, der skriver direkte ind i alt-attributten uden menneskelig gennemgang, er ikke en tilgængeligheds-funktion — det er en tilgængeligheds-erklæring. WCAG-overensstemmelse kræver stadig, at tekstalternativet er korrekt, kontekstuelt og ikke-fabrikeret. Modellen kan lave udkast; kun redaktøren kan publicere.

Konklusion: barren rykkede, gulvet gjorde ikke

Overskriften på denne primer, skrevet ærligt, er at vision-sprogmodeller i 2026 nu er et nyttigt første udkast til fotocolonnen og en nyttig afvisningskilde til diagramcolonnen, og at de to fakta tilsammen peger på en hybrid-arbejdsgang frem for en fuldt automatiseret. Barren rykkede mærkbart mellem 2022 og 2026 — acceptrater på informative fotos er nu i de høje halvtredsere og tres for de bedste lukkede modeller, mens de i 2022 var tættere på de lave tredivere. Gulvet rykkede ikke. Mobilitetsbeskyttelsesudstyr fejlidentificeres stadig, tegnsprog bliver stadig til »gestikulation«, og dekorative billeder modtager stadig en sætning, når de har brug for stilhed.

Den tilgængeligheds-mæssige konsekvens er, at den rette standard for ethvert CMS der leverer en »auto-alt-tekst«-knap i 2026 ikke er »tryk på knappen og publicér«. Det er »tryk på knappen for at lave et udkast, gennemgå derefter inden publicering«. Noget strammere end det leverer fabrikerede detaljer til de læsere, der er mest direkte afhængige af, at tekstalternativet er korrekt. Noget løsere end det — at ignorere AI fuldstændigt — efterlader de 41% af billeder med tomme alt-tekster uadresserede, når et udkast ville have hjulpet.

Vi kører denne matrix igen i november 2026. Hvis diagramcolonnen er rykket over 60%-acceptlinjen, vil hybrid-arbejdsgangen strammes. Indtil da: modellen laver udkast, redaktøren publicerer.

»Modellen kan lave udkast; kun redaktøren kan publicere.«

— denne artikel, hybrid-arbejdsgang trin 4