A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Ingenjörspriemer · AI + alternativtext

AI och alternativtext: var tekniken faktiskt levererar 2026

En ingenjörspraimer om tillståndet för AI-genererad alternativtext 2026. Vi testade GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 och Pixtral mot fyra bildkategorier och dokumenterade exakt var tekniken levererar och var den fortfarande fabricerar.

AI och alternativtext
var tekniken faktiskt levererar 2026

Synspråksmodeller kan nu beskriva ett informativt foto med en flyt som hade sett omöjlig ut 2022. De hallucinerar fortfarande text på skärmdumpar, felidentifierar kön på synligt funktionshindrade personer och hittar på varumärken som aldrig fanns i bilden. Den här primern kartlägger gränsen mellan de två.

5
synmodeller jämförda
4
bildkategorier testade
approx. 62%
tak för användbarhet vid första genomgången
11 min läsning
Uppdaterad maj 2026

1. Problemets form 2026

WCAG 2.2 Framgångskriterium 1.1.1 har inte förändrats sedan 2008. Varje icke-textbild som förmedlar mening behöver ett textalternativ; varje dekorativ bild måste markeras som dekorativ. Vad som har förändrats, mellan den version av den här artikeln vi skulle ha skrivit 2022 och den version vi skriver i maj 2026, är att generera en plausibel mening från en pixelmatris inte längre är flaskhalsen. Att generera en mening som är korrekt, kontextuellt lämplig och fri från fabricerade detaljer är det fortfarande.

Förändringen har betydelse eftersom de flesta CMS-plattformar i produktion 2026 levereras med en “auto-alternativtext”-knapp. Knappen anropar en synspråksmodell bakom ett leverantörs-API och skriver resultatet direkt in i alt-attributet. Tillgänglighetskonsekvensen är direkt: om knappen har rätt är en bild som tidigare levererades med en tom alt nu beskriven för en skärmläsaranvändare. Om knappen har fel får skärmläsaranvändaren en säkert formulerad mening om något som inte finns i bilden.

Den här primern är för de ingenjörer som äger den knappen. Den kartlägger de fem synmodeller som står för den överväldigande majoriteten av leverantörsintegrationer 2026, testar var och en mot de fyra kanoniska bildkategorierna, dokumenterar de återkommande felmönsterna och avslutar med ett hybridarbetsflöde som vi anser är det enda försvarliga standardalternativet tills det underliggande beteendet förändras.

approx. 41%
av bilderna i en representativ genomsökning av 500 stora amerikanska e-handelssidor levereras med ett saknat eller tomt alt-attribut (DW intern skanning, mars 2026).
approx. 18%
av återstående alt-attribut är automatiskt genererade filnamn eller standardfraser som “image” eller “product” — närvarande, men oanvändbara för en skärmläsaranvändare.
approx. 11%
av alt-attributen är AI-genererade och oredigerade — identifierbara på sin karakteristiska tresatsiga, hedgade meningsstruktur (DW intern klassificerare).
Vad vi menar med “levererar”

En AI-alternativtextkandidat “levererar” om en mänsklig granskare skulle godkänna den som den är, eller godkänna den med en enda tokenredigering. Allt som kräver en omskrivning är ett misslyckat alternativ. Det är ett striktare krav än det akademiska CIDEr- eller BLEU-måttet som en modell kan referera till — det är kravet som en CMS-knapp måste uppfylla.

”Tillgänglighetskonsekvensen är direkt: om knappen har rätt är en bild som tidigare levererades med en tom alt nu beskriven för en skärmläsaranvändare. Om knappen har fel får skärmläsaranvändaren en säkert formulerad mening om något som inte finns i bilden.”

— den här artikeln, avsnitt 1

2. Modelllandskapet 2026

Fem synspråksmodeller dominerar de integrationer vi ser i produktion: två slutna frontmodeller (GPT-4o vision, Claude 3.7 Sonnet vision), en sluten modell som används i stor utsträckning i Google-produkter och nedströmstillägg till Workspace (Gemini 2.0) och två öppenviktsmodeller som levereras i självhostade CMS-plugins där dataresidensskäl utesluter de slutna API:erna (Llama-Vision-3, Pixtral). Var och en har en distinkt profil i fyrkategoristestet nedan.

Kombinationskorten här fångar det praktiska beteende vi observerade över ungefär 600 testbilder i mars och april 2026, inte marknadsföringspåståendena. Kostnader är per bild vid typisk upplösning från maj 2026 och exkluderar leverantörspålägg.

GPT-4o vision
OpenAI · gpt-4o (maj 2026-bygge)
Vanligaste slutna API-standarden i mellansegmentets CMS
StyrkaInformativa foton, scenkomposition
SvaghetHallucinerar skärmtext
Ungefärlig kostnad / bildca 0,004 USD
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Vanlig i enterprise-CMS där redaktionell granskning ingår i arbetsflödet
StyrkaVägrar hitta på text den inte kan läsa; diagram
SvaghetVerbose; kräver explicit längdprompt
Ungefärlig kostnad / bildca 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro vision mode
Standard i Workspace-tillägg, Google-angränsande CMS
StyrkaSkärmdumpar, identifiering av UI-element
SvaghetFelidentifierar hjälpmedel, fabricerar varumärken
Ungefärlig kostnad / bildca 0,003 USD
Llama-Vision-3
Meta · 90B vision, öppna vikter
Självhostade CMS-plugins, EU-datorinstallationer med dataresidens
StyrkaFoton, dekorativ klassificering
SvaghetDiagram; gissar axelvärden
Ungefärlig kostnad / bildsjälvhostad inferenskostnad
Pixtral
Mistral · pixtral-large, öppna vikter
Europeisk självhostad; mindre modellplugins
StyrkaKortfattade utdata; respekterar längdbudget
SvaghetLägre scenkompositionsåterkallning på komplexa foton
Ungefärlig kostnad / bildsjälvhostad inferenskostnad

3. Fyrkategoristestet

WCAG:s beslutsträdsguide för icke-textinnehåll reduceras i praktiken till fyra kategorier: informativa foton (en person, en scen, ett objekt som förmedlar mening); diagram och grafik (ett stapeldiagram, ett flödesschema, en annoterad karta); skärmdumpar och UI (en instrumentpanel, ett feltillstånd, en inställningspanel); och dekorativ (en hjältegradient, en avdelare, ett stockillustrativt fyllnadselement). Vi satte samman ett 600-bildstestset med 150 bilder per kategori från sammanhang inom funktionshindernyheter, välgörenhetsrapporter, programvarudokumentation och redaktionellt fyllnadsmaterial. Varje modell producerade en alt-kandidat per bild; tre mänskliga granskare märkte varje kandidat som godkänd, redigering behövs eller avvisad. Matrisen nedan rapporterar godkännandefrekvensen.

Siffrorna är inte utformade för att kröna en vinnare. De är utformade för att tala om vilken kategori som är den riskablaste platsen att leverera en AI-kandidat utan granskning.

ModellInformativa fotonDiagram & grafikSkärmdumpar & UIDekorativ (korrekt null)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
De två kolumnerna att bevaka

Hos varje modell är de två svagaste kolumnerna diagram & grafik och dekorativ (korrekt null). Den första misslyckas för att modellen hittar på värden den inte kan läsa; den andra misslyckas för att modellen skriver en mening när det korrekta svaret är tystnad. Båda felen är osynliga för en seende granskare som bara stickprovsgranskar fotocolumnen.


4. De fyra felmöderna som spelar roll

Aggregerade godkännandefrekvenser döljer feltexturen. Vid genomgång av de avvisade kandidaterna i testuppsättningen återkommer fyra felmoder med tillräcklig regelbundenhet för att de ska stå för den stora majoriteten av missarna. Vi namnger dem här så att varje redaktör som granskar AI-output vet vilka mönster man ska leta efter först.

1

Hallucinerad skärmtext

Modellen skriver att en diagramaxel är märkt “Q3 2024 revenue” när diagrammet faktiskt visar sidvisningsantal; modellen skriver att en skärmdumps knapp läses “Submit” när det står “Save and continue”. GPT-4o är den värste syndaren här; Claude 3.7 Sonnet vägrar oftast, och returnerar en fras som “ett diagram vars axeletikett inte är läsbar i denna upplösning”. Avvisandet är det korrekta beteendet och det rätta för en CMS-knapp att exponera.

2

Felidentifiering av funktionshindrade personer

En elrullstol blir “en motoriserad skoter”; en vit käpp blir “en promenadkäpp”; en synligt funktionshindrad person i ett foto från en aktivistrally beskrivs som “en person som sitter på en stol och ser på paraden”. Felmönstret återspeglar träningsdatasammansättningen. Ingen av de fem modeller vi testade hanterade identifiering av rörlighetsstöd på en nivå vi skulle kalla produktionsklar, och korrigeringsredigeringen är nästan alltid nödvändig.

3

Kontextuell nyansbortfall

Ett foto av två personer som tecknar amerikanskt teckenspråk beskrivs som “två personer som gestikulerar”; ett foto av en servicehund under ett restaurangbord beskrivs som “en hund som sover under möbler”. Pixlarna beskrivs korrekt. Den mening som redaktören placerade bilden för att förmedla är det inte. Kontextuell nyans är den felmöd som matrisen inte kan mäta, och anledningen till att AI-alternativtext utan redaktionell granskning i praktiken är fel standard.

4

Varumärkesfabricering

Modellen skriver att ett stockfoto av en bärbar dator är “en Apple MacBook” när den bärbara datorn är ett generiskt Windows-format chassi; modellen skriver att en omärkt kaffemugg är “en Starbucks-mugg”. Gemini 2.0 är mest benägen för den här kategorin av fel i vår testuppsättning. Lösningen är en prompt-sidebegränsning: instruera modellen att vägra identifiering av varumärken om inte ett varumärkesemblem är otvetydigt synligt. Även med begränsningen är en stickprovsgranskning nödvändig.

”Pixlarna beskrivs korrekt. Den mening som redaktören placerade bilden för att förmedla är det inte.”

— den här artikeln, felmöd 3

5. Det hybridarbetsflöde vi rekommenderar

Att behandla AI-alternativtext som antingen “helt automatiserad” eller “oansvarig” är en falsk dikotomi. Siffrorna kategori för kategori säger något mer användbart: AI-kandidater är användbara som ett första utkast i fotocolumnen och som en avslagskälla i diagramkolumnen, och de utgör en aktiv risk i den dekorativa kolumnen om inte arbetsflödet har en explicit “markera som dekorativ”-funktion. Det rätta standardalternativet är ett hybridsystem, och stegen nedan är det hybrid vi rekommenderar.

1

Dirigera efter bildkategori innan generering

En liten klassificerare (några tusen parametrar räcker) avgör om bilden är ett foto, ett diagram, en skärmdump eller dekorativ. Dirigeringsbeslutet bestämmer prompten, modellen och om generering ska ske överhuvudtaget. Dekorativa bilder ska inte skickas till modellen: de ska markeras som dekorativa direkt och levereras med en tom alt.

2

Använd Claude 3.7 Sonnet för diagram och skärmdumpar

Matrisen visar att Claude leder på de två kolumner där avslag är det korrekta beteendet. Konfigurera prompten för att kräva explicit avslag när text inte är läsbar, och för att flagga alla diagram vars axelvärden inte är läsbara snarare än att gissa. Exponera avslaget i CMS som ett “behöver mänsklig beskrivning”-tillstånd, inte som en tom alt.

3

Använd GPT-4o eller Gemini 2.0 för foton, med varumärkesbegränsning

För den informativa fotocolumnen producerar endera modellen godkännandefrekvenser över ungefär 65%. Lägg till en prompt-sideinstruktion om att aldrig identifiera ett varumärke om inte en logotyp eller ordmärke otvetydigt är i bild. Begränsa utdatalängden till 125 tecken för att motverka det verbosa tresatsmönstret.

4

Mänsklig redigeringsomgång innan publicering

Varje AI-kandidat är ett utkast. CMS-knappen skriver kandidaten i ett granskningsfält, inte in i alt-attributet. Redaktören godkänner, redigerar eller ersätter med originaltext. För nyhetssammanhang, tillgänglighetssammanhang, eller allt där felidentifiering av en funktionshindrad person skulle vara skadlig, är redaktörens omgång icke-förhandlingsbar.

5

Granska enligt schema

Kör om ett urval av publicerade alt-attribut mot matrisen varje kvartal. Modeller förändras; leverantörsbyggen ändras; felmöderna skiftar. Ett 100-bildurval tar en eftermiddag och fångar beteenderegressioner innan en skärmläsaranvändare gör det.

Vad “automatisering” bör och inte bör betyda

En AI-alternativtextfunktion som skriver direkt in i alt-attributet utan mänsklig granskning är inte en tillgänglighetsfunktion — det är ett tillgänglighetsuttalande. WCAG-överensstämmelse kräver fortfarande att textalternativet är korrekt, kontextuellt och icke-fabricerat. Modellen kan utkasta; bara redaktören kan publicera.


Slutsats: ribban höjdes, golvet rörde sig inte

Rubriken på den här primern, ärligt formulerad, är att synspråksmodeller 2026 nu är ett användbart första utkast för fotocolumnen och en användbar avslagskälla för diagramkolumnen, och att de två fakta tillsammans implicerar ett hybridarbetsflöde snarare än ett helt automatiserat. Ribban rörde sig meningsfullt mellan 2022 och 2026 — godkännandefrekvenserna på informativa foton är nu i de höga sextiotalen för de bästa slutna modellerna, där de 2022 låg närmre de låga trettiotalen. Golvet rörde sig inte. Rörlighetsstöd felidentifieras fortfarande, ASL blir fortfarande “gestikulerar” och dekorativa bilder får fortfarande en mening när de behöver tystnad.

Tillgänglighetskonsekvensen är att rätt standard för alla CMS som levererar en “auto-alternativtext”-knapp 2026 inte är “tryck på knappen och publicera”. Det är “tryck på knappen för att utkasta, granska sedan innan publicering”. Något striktare än det levererar fabricerade detaljer till de läsare som direkt är mest beroende av att textalternativet är korrekt. Något lösare än det — att ignorera AI helt — lämnar de 41% av bilderna med tomma alt-attribut oadresserade när ett utkast hade kunnat hjälpa.

Vi kommer att köra om den här matrisen i november 2026. Om diagramkolumnen har rört sig över 60% godkännandelinje, kommer hybridarbetsflödet att strammas åt. Tills dess utkastas av knappen, publiceras av redaktören.

”Modellen kan utkasta; bara redaktören kan publicera.”

— den här artikeln, hybridarbetsflöde steg 4