A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Insinööriopas · Tekoäly + alt-teksti

Tekoäly ja vaihtoehtoinen teksti: missä teknologia todella toimii vuonna 2026

Insinööriopas tekoälyllä tuotetun vaihtoehtoisen tekstin tilasta vuonna 2026. Testasimme GPT-4o:n, Claude 3.7 Sonnetin, Gemini 2.0:n, Llama-Vision-3:n ja Pixtralin neljässä kuvakategoriassa ja dokumentoimme tarkasti, missä teknologia toimii ja missä se yhä hallusinoi.

Tekoäly ja vaihtoehtoinen teksti
missä teknologia todella toimii vuonna 2026

Näköäly-kiellimallit pystyvät nyt kuvailemaan informatiivisen valokuvan sujuvuudella, joka olisi vaikuttanut mahdottomalta vuonna 2022. Ne hallusinoivat silti tekstiä kuvakaappauksissa, määrittelevät näkyvästi vammaisten henkilöiden sukupuolen väärin ja keksivät tuotenimiä, joita ei ollut kuvassa. Tämä opas kartoittaa rajan näiden kahden välillä.

5
näkömallia vertailtu
4
kuvakategoriaa testattu
noin 62 %
ensikierroksen käytettävyyskatto
11 min lukuaika
Päivitetty toukokuu 2026

1. Ongelman muoto vuonna 2026

WCAG 2.2:n onnistumiskriteeri 1.1.1 ei ole muuttunut vuodesta 2008. Jokainen merkitystä välittävä ei-tekstinen kuva tarvitsee tekstivaihtoehdon; jokainen koristeellinen kuva on merkittävä koristeelliseksi. Mikä on muuttunut — siitä artikkelista, jonka olisimme kirjoittaneet vuonna 2022, siihen versioon, jonka kirjoitamme toukokuussa 2026 — on se, että uskottavan kuulovan lauseen tuottaminen pikselijoukosta ei enää ole pullonkaula. Sen sijaan sellaisen lauseen tuottaminen, joka on oikea, kontekstuaalisesti sopiva ja vailla keksittyjä yksityiskohtia, on edelleen.

Muutos on merkittävä, koska useimmat tuotanto-CMS-alustat vuonna 2026 tarjoavat “automaattinen alt-teksti” -painikkeen. Painike kutsuu näköäly-kielimallia toimittajan API:n kautta ja kirjoittaa tuloksen suoraan alt-attribuuttiin. Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.

Tämä opas on insinööreille, jotka omistavat tuon painikkeen. Se kartoittaa viisi näkömallia, jotka kattavat suuren enemmistön toimittajaintegraatioista vuonna 2026, testaa jokaisen neljässä kanonisessa kuvakategoriassa, dokumentoi toistuvat vikatilat ja päättyy hybridityönkulkuun, jonka uskomme olevan ainoa puolustettava oletusasetus, kunnes taustalla oleva käyttäytyminen muuttuu.

noin 41 %
500 suuren yhdysvaltalaisen verkkokauppasivun edustavasta ryöminnästä puuttuu alt-attribuutti tai se on tyhjä (DW:n sisäinen skannaus, maaliskuu 2026).
noin 18 %
jäljellä olevista alt-teksteistä on automaattisesti luotuja tiedostonimiä tai oletussanontoja kuten “image” tai “product” — läsnä, mutta ruudunlukuohjelman käyttäjälle hyödyttömiä.
noin 11 %
alt-teksteistä on tekoälyn luomia ja muokkaamattomia — tunnistettavissa niiden tyypillisestä kolmen lauseen epävarmuutta ilmaisevasta lauserakenteesta (DW:n sisäinen luokitin).
Mitä tarkoitamme “toimii”-sanalla

Tekoälyn alt-tekstiehdokas “toimii”, jos ihmisarvioija hyväksyisi sen sellaisenaan tai yhden sanan muokkauksella. Mikä tahansa, joka vaatii uudelleenkirjoittamista, on epäonnistuminen. Tämä on tiukempi mittari kuin akateeminen CIDEr- tai BLEU-metriikka, johon malli saattaisi viitata — se on se mittari, jonka CMS-painikkeen on ylitettävä.

”Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.”

— tämä artikkeli, osio 1

2. Mallimaisema vuonna 2026

Viisi näköäly-kielimallia hallitsee tuotannossa näkemiämme integraatioita: kaksi suljettua rajamallia (GPT-4o vision, Claude 3.7 Sonnet vision), yksi suljettu malli, jota käytetään paljon Google-tuotteissa ja Workspace-lisäosissa (Gemini 2.0), sekä kaksi avoimen painon mallia, jotka toimitetaan itsehostettavissa CMS-lisäosissa, joissa tietojen sijainti sulkee pois suljetut API:t (Llama-Vision-3, Pixtral). Jokaisella on erillinen profiili alla olevassa nelikategoriaisessa testissä.

Tässä esitetyt yhdistelmäkortit kuvaavat käytännöllistä käyttäytymistä, jonka havaitsimme noin 600 testikuvassa maalis- ja huhtikuussa 2026, ei markkinointiväitteitä. Kustannukset ovat per kuva tyypillisessä resoluutiossa toukokuulta 2026 ilman toimittajakorotuksia.

GPT-4o vision
OpenAI · gpt-4o (toukokuu 2026)
Yleisin suljettu API-oletus keskimarkkinan CMS:ssä
VahvuusInformatiiviset valokuvat, kohtausten koostaminen
HeikkousHallusinoi ruudulla näkyvän tekstin
Noin hinta / kuvanoin 0,004 USD
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Yleinen yritys-CMS:ssä, jossa toimituksellinen tarkistus on osa työnkulkua
VahvuusKieltäytyy keksimästä tekstiä, jota se ei pysty lukemaan; kaaviot
HeikkousMonisanainen; tarvitsee eksplisiittisen pituuskehotteen
Noin hinta / kuvanoin 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro vision mode
Oletus Workspace-lisäosissa, Google-läheisissä CMS-alustoissa
VahvuusKuvakaappaukset, käyttöliittymäelementtien tunnistaminen
HeikkousTunnistaa liikkumisapuvälineet väärin, keksii tuotenimiä
Noin hinta / kuvanoin 0,003 USD
Llama-Vision-3
Meta · 90B vision, avoimen painon malli
Itsehostetut CMS-lisäosat, EU:n tietojen sijainnin käyttöönotot
VahvuusValokuvat, koristeellisten luokittelu
HeikkousKaaviot; arvailee akselien arvot
Noin hinta / kuvaitsehostettu inferenssikustannus
Pixtral
Mistral · pixtral-large, avoimen painon malli
Eurooppalainen itsehostettu; pienemmän mallin lisäosat
VahvuusTiiviit tulosteet; noudattaa pituusrajoitusta
HeikkousHeikompi kohtauskuvauksen tarkkuus monimutkaisissa valokuvissa
Noin hinta / kuvaitsehostettu inferenssikustannus

3. Nelikategoriainen testi

WCAG:n päätöspuuohjaus ei-tekstiselle sisällölle tiivistyy käytännössä neljään kategoriaan: informatiiviset valokuvat (henkilö, kohtaus, merkitystä välittävä esine); kaaviot ja diagrammit (pylväsdiagrammi, virtauskaavio, kommentoitu kartta); kuvakaappaukset ja käyttöliittymä (kojelauta, virhetila, asetuspaneeli); ja koristeelliset (hero-liukuväri, jako-viiva, varastokuvaustäyte). Kokosimme 600 kuvan testijoukon, josta 150 kuvaa per kategoria vammaisiin liittyvistä uutisista, hyväntekeväisyysjärjestöjen raporteista, ohjelmistodokumentaatiosta ja toimituksellisesta täytetavarasta. Jokainen malli tuotti yhden alt-ehdokkaan per kuva; kolme ihmisarvioijaa merkitsi jokaisen ehdokkaan joko hyväksytyksi, muokattavaksi tai hylätyksi. Alla oleva matriisi ilmoittaa hyväksymisasteen.

Luvut eivät ole tarkoitettu kruunaamaan voittajaa. Ne on tarkoitettu kertomaan, missä kategoriassa on riskialtisinta toimittaa tekoälyehdokas ilman tarkistusta.

MalliInformatiiviset valokuvatKaaviot ja diagrammitKuvakaappaukset ja käyttöliittymäKoristeelliset (oikein null)
GPT-4o vision71 %34 %52 %41 %
Claude 3.7 Sonnet vision68 %49 %61 %58 %
Gemini 2.066 %38 %64 %44 %
Llama-Vision-3 (90B)62 %21 %47 %53 %
Pixtral large57 %26 %42 %48 %
Kaksi saraketta, joita kannattaa seurata

Jokaisessa mallissa kaksi heikointa saraketta ovat kaaviot ja diagrammit sekä koristeelliset (oikein null). Ensimmäinen epäonnistuu, koska malli keksii arvoja, joita se ei pysty lukemaan; toinen epäonnistuu, koska malli kirjoittaa lauseen, kun oikea vastaus on hiljaisuus. Molemmat virheet ovat näkymättömiä näkevää arvioijalle, joka tarkistaa vain pistokoeluontoisesti valokuvasarakkeen.


4. Neljä merkittävää vikatilaa

Kokonaishyväksymisasteet piilottavat virheiden tekstuurin. Tarkastelemalla hylättyjä ehdokkaita koko testijoukossa neljä vikatilatyyppiä toistuu riittävän säännöllisesti, että ne kattavat suuren enemmistön epäonnistumisista. Nimeämme ne tässä, jotta jokainen tekoälytulosteen arvioija tietää, mitä malleja etsiä ensin.

1

Hallusinoitu ruudulla näkyvä teksti

Malli kirjoittaa, että kaavion akseli on merkitty “Q3 2024 -tuotto”, vaikka kaavio näyttää sivukatselukerrat; malli kirjoittaa, että kuvakaappauksen painike lukee “Submit”, vaikka se lukee “Tallenna ja jatka”. GPT-4o on tässä pahin rikkoja; Claude 3.7 Sonnet kieltäytyy useimmiten palauttaen sellaisen lauseen kuin “kaavio, jonka akselimerkinät eivät ole luettavissa tässä resoluutiossa”. Kieltäytyminen on oikea käytös, ja se on oikea asia CMS-painikkeelle näyttää.

2

Vammaisten henkilöiden virheellinen tunnistaminen

Sähköpyörätuoli muuttuu “moottoroitu skootteriksi”; valkoinen keppi muuttuu “kävelykepiksi”; näkyvästi vammainen henkilö aktivismimielenosoituksen valokuvassa kuvaillaan “henkilönä, joka istuu tuolissa seuraten paraatia”. Virhemalli heijastaa koulutusdata-aineiston koostumusta. Yksikään viidestä testaamastamme mallista ei käsitellyt liikkumisapuvälineiden tunnistamista tuotantovalmiilla tasolla, ja korjaava muokkaus on lähes aina välttämätön.

3

Kontekstuaalisen vivahteen menetys

Valokuva kahdesta amerikanviittomakieltä viittovasta henkilöstä kuvataan “kahdena elehtivänä henkilönä”; valokuva opaskoirasta ravintolan pöydän alla kuvataan “huonekalun alla nukkuvana koirana”. Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei. Kontekstuaalinen vivahde on vikatilatyyppi, jota matriisi ei pysty mittaamaan, ja syy siihen, miksi tekoälyn alt-teksti ilman toimituksellista tarkistusta on käytännössä väärä oletus.

4

Tuotenimen keksiminen

Malli kirjoittaa, että kannettavan tietokoneen varastokuva on “Apple MacBook”, vaikka kannettava on yleinen Windows-muotoinen runko; malli kirjoittaa, että merkittömässä kahvimukissa on “Starbucks-muki”. Gemini 2.0 on altein tälle virhekategorialle testijoukosamme. Korjaus on kehoterajoitus: ohjeista mallia kieltäytymään nimetyn tuoteen tunnistamisesta, ellei tuotemerkki ole epäselvästi näkyvillä. Rajoituksesta huolimatta otantatasoinen tarkistus on edelleen välttämätön.

”Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei.”

— tämä artikkeli, vikatila 3

5. Suosittelemamme hybridityönkulku

Tekoälyn alt-tekstin pitäminen joko “täysin automatisoituna” tai “vastuuttomana” on väärä dikotomia. Kategoriakohtiaiset luvut kertovat jotain hyödyllisempää: tekoälyehdokkaat ovat käytettäviä ensimmäisenä luonnoksena valokuvasarakkeessa ja kieltäytymislähteenä kaaviosarakkeessa, ja ne ovat aktiivinen riski koristeellisessa sarakkeessa, ellei työnkulussa ole eksplisiittistä “merkitse koristeelliseksi” -toimintoa. Oikea oletus on hybridi, ja alla olevat vaiheet ovat suosittelemamme hybridi.

1

Reititä kuvakategorian mukaan ennen luomista

Pieni luokitin (muutama tuhat parametria riittää) päättää, onko kuva valokuva, kaavio, kuvakaappaus vai koristeellinen. Reitityspäätös määrää kehoten, mallin ja sen, luodaanko ylipäätään. Koristeellisia kuvia ei pidä lähettää mallille: ne pitää merkitä koristeellisiksi suoraan ja toimittaa tyhjällä alt-attribuutilla.

2

Käytä Claude 3.7 Sonnetia kaavioihin ja kuvakaappauksiin

Matriisi osoittaa, että Claude johtaa kahdessa sarakkeessa, joissa kieltäytyminen on oikea käytös. Konfiguroi kehote vaatimaan eksplisiittinen kieltäytyminen, kun teksti ei ole luettavissa, ja merkitsemään mikä tahansa kaavio, jonka akseliarvoja ei pysty lukemaan, eikä arvaile. Tuo kieltäytyminen esiin CMS:ssä “tarvitsee ihmiskuvauksen” -tilana, ei tyhjänä alt-attribuuttina.

3

Käytä GPT-4o:ta tai Gemini 2.0:aa valokuviin tuotenimerajoituksella

Informatiivisten valokuvien sarakkeessa kumpikin malli tuottaa hyväksymisasteita yli noin 65 %:n. Lisää kehoteohje, joka kieltää tuotenimen tunnistamisen, ellei logo tai tuotemerkkikirjoitus ole selvästi kuvassa. Rajoita tulosteiden pituus 125 merkkiin monisanaisen kolmen lauseen rakenteen torjumiseksi.

4

Ihmismuokkausvaihe ennen julkaisua

Jokainen tekoälyehdokas on luonnos. CMS-painike kirjoittaa ehdokkaan tarkistuskenttään, ei alt-attribuuttiin. Toimittaja joko hyväksyy, muokkaa tai korvaa alkuperäisellä tekstillä. Uutiskonteksteissa, saavutettavuuskonteksteissa tai missä tahansa, missä vammaisen henkilön virheellinen tunnistaminen olisi vahingollista, toimittajan tarkistusvaihe on ehdoton.

5

Auditointi aikataulun mukaan

Aja uudelleen otos julkaistuista alt-teksteistä matriisia vasten joka neljännesvuosi. Mallit ajautuvat; toimittajaversiot muuttuvat; vikatilat siirtyvät. Sadan kuvan otos vie yhden iltapäivän ja havaitsee käytösregressiot ennen kuin ruudunlukuohjelman käyttäjä sen tekee.

Mitä “automaatio” tarkoittaa ja mitä ei

Tekoälyn alt-tekstiominaisuus, joka kirjoittaa suoraan alt-attribuuttiin ilman ihmistarkistusta, ei ole saavutettavuusominaisuus — se on saavutettavuusseloste. WCAG-vaatimustenmukaisuus edellyttää edelleen, että tekstivaihtoehto on oikea, kontekstuaalinen ja vailla keksittyjä yksityiskohtia. Malli voi luonnostella; vain toimittaja voi toimittaa.


Johtopäätös: rima nousi, lattia ei

Tämän oppaan otsikko, rehellisesti kirjoitettuna, on se, että näköäly-kielimallit vuonna 2026 ovat nyt hyödyllinen ensimmäinen luonnos valokuvasarakkeessa ja hyödyllinen kieltäytymislähde kaaviosarakkeessa, ja nämä kaksi tosiasiaa yhdessä viittaavat hybridityönkulkuun eivätkä täysin automatisoituun. Rima nousi merkittävästi vuodesta 2022 vuoteen 2026 — hyväksymisasteet informatiivisissa valokuvissa ovat nyt korkeiden kuudenkymmenen prosenttiyksikön tasolla parhaissa suljetuissa malleissa, kun ne vuonna 2022 olivat lähempänä matalia kolmeakymmentä. Lattia ei noussut. Liikkumisapuvälineet tunnistetaan edelleen väärin, ASL muuttuu edelleen “elehtimiseksi” ja koristeelliset kuvat saavat edelleen lauseen, kun ne tarvitsevat hiljaisuutta.

Saavutettavuusseuraus on, että oikea oletus mille tahansa CMS:lle, joka toimittaa “automaattinen alt-teksti” -painikkeen vuonna 2026, ei ole “paina painiketta ja julkaise”. Se on “paina painiketta luonnostamaan, sitten tarkista ennen julkaisua”. Tätä tiukempi asetus toimittaa keksittyjä yksityiskohtia niille lukijoille, jotka ovat suorimmin riippuvaisia siitä, että tekstivaihtoehto on oikea. Tätä löysempi asetus — tekoälyn täydellinen sivuuttaminen — jättää 41 % kuvista tyhjillä alt-teksteillä käsittelemättä, vaikka luonnos olisi auttanut.

Ajamme tämän matriisin uudelleen marraskuussa 2026. Jos kaaviosarake on noussut yli 60 %:n hyväksymisrajan, hybridityönkulku tiukkenee. Siihen asti painike luonnostelee, toimittaja toimittaa.

”Malli voi luonnostella; vain toimittaja voi toimittaa.”

— tämä artikkeli, hybridityönkulun vaihe 4