Tekoäly ja vaihtoehtoinen teksti
missä teknologia todella toimii vuonna 2026

Näköäly-kiellimallit pystyvät nyt kuvailemaan informatiivisen valokuvan sujuvuudella, joka olisi vaikuttanut mahdottomalta vuonna 2022. Ne hallusinoivat silti tekstiä kuvakaappauksissa, määrittelevät näkyvästi vammaisten henkilöiden sukupuolen väärin ja keksivät tuotenimiä, joita ei ollut kuvassa. Tämä opas kartoittaa rajan näiden kahden välillä.

näkömallia vertailtu

kuvakategoriaa testattu

noin 62 %

ensikierroksen käytettävyyskatto

Kirjoittanut Disability Worldin insinöörityöpöytä

11 min lukuaika

Päivitetty toukokuu 2026

Perusta

1. Ongelman muoto vuonna 2026

WCAG 2.2:n onnistumiskriteeri 1.1.1 ei ole muuttunut vuodesta 2008. Jokainen merkitystä välittävä ei-tekstinen kuva tarvitsee tekstivaihtoehdon; jokainen koristeellinen kuva on merkittävä koristeelliseksi. Mikä on muuttunut — siitä artikkelista, jonka olisimme kirjoittaneet vuonna 2022, siihen versioon, jonka kirjoitamme toukokuussa 2026 — on se, että uskottavan kuulovan lauseen tuottaminen pikselijoukosta ei enää ole pullonkaula. Sen sijaan sellaisen lauseen tuottaminen, joka on oikea, kontekstuaalisesti sopiva ja vailla keksittyjä yksityiskohtia, on edelleen.

Muutos on merkittävä, koska useimmat tuotanto-CMS-alustat vuonna 2026 tarjoavat “automaattinen alt-teksti” -painikkeen. Painike kutsuu näköäly-kielimallia toimittajan API:n kautta ja kirjoittaa tuloksen suoraan alt-attribuuttiin. Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.

Tämä opas on insinööreille, jotka omistavat tuon painikkeen. Se kartoittaa viisi näkömallia, jotka kattavat suuren enemmistön toimittajaintegraatioista vuonna 2026, testaa jokaisen neljässä kanonisessa kuvakategoriassa, dokumentoi toistuvat vikatilat ja päättyy hybridityönkulkuun, jonka uskomme olevan ainoa puolustettava oletusasetus, kunnes taustalla oleva käyttäytyminen muuttuu.

noin 41 %

500 suuren yhdysvaltalaisen verkkokauppasivun edustavasta ryöminnästä puuttuu alt-attribuutti tai se on tyhjä (DW:n sisäinen skannaus, maaliskuu 2026).

noin 18 %

jäljellä olevista alt-teksteistä on automaattisesti luotuja tiedostonimiä tai oletussanontoja kuten “image” tai “product” — läsnä, mutta ruudunlukuohjelman käyttäjälle hyödyttömiä.

noin 11 %

alt-teksteistä on tekoälyn luomia ja muokkaamattomia — tunnistettavissa niiden tyypillisestä kolmen lauseen epävarmuutta ilmaisevasta lauserakenteesta (DW:n sisäinen luokitin).

Mitä tarkoitamme “toimii”-sanalla

Tekoälyn alt-tekstiehdokas “toimii”, jos ihmisarvioija hyväksyisi sen sellaisenaan tai yhden sanan muokkauksella. Mikä tahansa, joka vaatii uudelleenkirjoittamista, on epäonnistuminen. Tämä on tiukempi mittari kuin akateeminen CIDEr- tai BLEU-metriikka, johon malli saattaisi viitata — se on se mittari, jonka CMS-painikkeen on ylitettävä.

”Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.”

— tämä artikkeli, osio 1

Maisema

2. Mallimaisema vuonna 2026

Viisi näköäly-kielimallia hallitsee tuotannossa näkemiämme integraatioita: kaksi suljettua rajamallia (GPT-4o vision, Claude 3.7 Sonnet vision), yksi suljettu malli, jota käytetään paljon Google-tuotteissa ja Workspace-lisäosissa (Gemini 2.0), sekä kaksi avoimen painon mallia, jotka toimitetaan itsehostettavissa CMS-lisäosissa, joissa tietojen sijainti sulkee pois suljetut API:t (Llama-Vision-3, Pixtral). Jokaisella on erillinen profiili alla olevassa nelikategoriaisessa testissä.

Tässä esitetyt yhdistelmäkortit kuvaavat käytännöllistä käyttäytymistä, jonka havaitsimme noin 600 testikuvassa maalis- ja huhtikuussa 2026, ei markkinointiväitteitä. Kustannukset ovat per kuva tyypillisessä resoluutiossa toukokuulta 2026 ilman toimittajakorotuksia.

Yleisin suljettu API-oletus keskimarkkinan CMS:ssä

VahvuusInformatiiviset valokuvat, kohtausten koostaminen

HeikkousHallusinoi ruudulla näkyvän tekstin

Noin hinta / kuvanoin 0,004 USD

Yleinen yritys-CMS:ssä, jossa toimituksellinen tarkistus on osa työnkulkua

VahvuusKieltäytyy keksimästä tekstiä, jota se ei pysty lukemaan; kaaviot

HeikkousMonisanainen; tarvitsee eksplisiittisen pituuskehotteen

Noin hinta / kuvanoin 0,005 USD

Oletus Workspace-lisäosissa, Google-läheisissä CMS-alustoissa

VahvuusKuvakaappaukset, käyttöliittymäelementtien tunnistaminen

HeikkousTunnistaa liikkumisapuvälineet väärin, keksii tuotenimiä

Noin hinta / kuvanoin 0,003 USD

Itsehostetut CMS-lisäosat, EU:n tietojen sijainnin käyttöönotot

VahvuusValokuvat, koristeellisten luokittelu

HeikkousKaaviot; arvailee akselien arvot

Noin hinta / kuvaitsehostettu inferenssikustannus

Eurooppalainen itsehostettu; pienemmän mallin lisäosat

VahvuusTiiviit tulosteet; noudattaa pituusrajoitusta

HeikkousHeikompi kohtauskuvauksen tarkkuus monimutkaisissa valokuvissa

Noin hinta / kuvaitsehostettu inferenssikustannus

Viite

3. Nelikategoriainen testi

WCAG:n päätöspuuohjaus ei-tekstiselle sisällölle tiivistyy käytännössä neljään kategoriaan: informatiiviset valokuvat (henkilö, kohtaus, merkitystä välittävä esine); kaaviot ja diagrammit (pylväsdiagrammi, virtauskaavio, kommentoitu kartta); kuvakaappaukset ja käyttöliittymä (kojelauta, virhetila, asetuspaneeli); ja koristeelliset (hero-liukuväri, jako-viiva, varastokuvaustäyte). Kokosimme 600 kuvan testijoukon, josta 150 kuvaa per kategoria vammaisiin liittyvistä uutisista, hyväntekeväisyysjärjestöjen raporteista, ohjelmistodokumentaatiosta ja toimituksellisesta täytetavarasta. Jokainen malli tuotti yhden alt-ehdokkaan per kuva; kolme ihmisarvioijaa merkitsi jokaisen ehdokkaan joko hyväksytyksi, muokattavaksi tai hylätyksi. Alla oleva matriisi ilmoittaa hyväksymisasteen.

Luvut eivät ole tarkoitettu kruunaamaan voittajaa. Ne on tarkoitettu kertomaan, missä kategoriassa on riskialtisinta toimittaa tekoälyehdokas ilman tarkistusta.

Malli	Informatiiviset valokuvat	Kaaviot ja diagrammit	Kuvakaappaukset ja käyttöliittymä	Koristeelliset (oikein null)
GPT-4o vision	71 %	34 %	52 %	41 %
Claude 3.7 Sonnet vision	68 %	49 %	61 %	58 %
Gemini 2.0	66 %	38 %	64 %	44 %
Llama-Vision-3 (90B)	62 %	21 %	47 %	53 %
Pixtral large	57 %	26 %	42 %	48 %

Kaksi saraketta, joita kannattaa seurata

Jokaisessa mallissa kaksi heikointa saraketta ovat kaaviot ja diagrammit sekä koristeelliset (oikein null). Ensimmäinen epäonnistuu, koska malli keksii arvoja, joita se ei pysty lukemaan; toinen epäonnistuu, koska malli kirjoittaa lauseen, kun oikea vastaus on hiljaisuus. Molemmat virheet ovat näkymättömiä näkevää arvioijalle, joka tarkistaa vain pistokoeluontoisesti valokuvasarakkeen.

Diagnostiikka

4. Neljä merkittävää vikatilaa

Kokonaishyväksymisasteet piilottavat virheiden tekstuurin. Tarkastelemalla hylättyjä ehdokkaita koko testijoukossa neljä vikatilatyyppiä toistuu riittävän säännöllisesti, että ne kattavat suuren enemmistön epäonnistumisista. Nimeämme ne tässä, jotta jokainen tekoälytulosteen arvioija tietää, mitä malleja etsiä ensin.

Hallusinoitu ruudulla näkyvä teksti

Malli kirjoittaa, että kaavion akseli on merkitty “Q3 2024 -tuotto”, vaikka kaavio näyttää sivukatselukerrat; malli kirjoittaa, että kuvakaappauksen painike lukee “Submit”, vaikka se lukee “Tallenna ja jatka”. GPT-4o on tässä pahin rikkoja; Claude 3.7 Sonnet kieltäytyy useimmiten palauttaen sellaisen lauseen kuin “kaavio, jonka akselimerkinät eivät ole luettavissa tässä resoluutiossa”. Kieltäytyminen on oikea käytös, ja se on oikea asia CMS-painikkeelle näyttää.

Vammaisten henkilöiden virheellinen tunnistaminen

Sähköpyörätuoli muuttuu “moottoroitu skootteriksi”; valkoinen keppi muuttuu “kävelykepiksi”; näkyvästi vammainen henkilö aktivismimielenosoituksen valokuvassa kuvaillaan “henkilönä, joka istuu tuolissa seuraten paraatia”. Virhemalli heijastaa koulutusdata-aineiston koostumusta. Yksikään viidestä testaamastamme mallista ei käsitellyt liikkumisapuvälineiden tunnistamista tuotantovalmiilla tasolla, ja korjaava muokkaus on lähes aina välttämätön.

Kontekstuaalisen vivahteen menetys

Valokuva kahdesta amerikanviittomakieltä viittovasta henkilöstä kuvataan “kahdena elehtivänä henkilönä”; valokuva opaskoirasta ravintolan pöydän alla kuvataan “huonekalun alla nukkuvana koirana”. Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei. Kontekstuaalinen vivahde on vikatilatyyppi, jota matriisi ei pysty mittaamaan, ja syy siihen, miksi tekoälyn alt-teksti ilman toimituksellista tarkistusta on käytännössä väärä oletus.

Tuotenimen keksiminen

Malli kirjoittaa, että kannettavan tietokoneen varastokuva on “Apple MacBook”, vaikka kannettava on yleinen Windows-muotoinen runko; malli kirjoittaa, että merkittömässä kahvimukissa on “Starbucks-muki”. Gemini 2.0 on altein tälle virhekategorialle testijoukosamme. Korjaus on kehoterajoitus: ohjeista mallia kieltäytymään nimetyn tuoteen tunnistamisesta, ellei tuotemerkki ole epäselvästi näkyvillä. Rajoituksesta huolimatta otantatasoinen tarkistus on edelleen välttämätön.

”Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei.”

— tämä artikkeli, vikatila 3

Peliopas

5. Suosittelemamme hybridityönkulku

Tekoälyn alt-tekstin pitäminen joko “täysin automatisoituna” tai “vastuuttomana” on väärä dikotomia. Kategoriakohtiaiset luvut kertovat jotain hyödyllisempää: tekoälyehdokkaat ovat käytettäviä ensimmäisenä luonnoksena valokuvasarakkeessa ja kieltäytymislähteenä kaaviosarakkeessa, ja ne ovat aktiivinen riski koristeellisessa sarakkeessa, ellei työnkulussa ole eksplisiittistä “merkitse koristeelliseksi” -toimintoa. Oikea oletus on hybridi, ja alla olevat vaiheet ovat suosittelemamme hybridi.

Reititä kuvakategorian mukaan ennen luomista

Pieni luokitin (muutama tuhat parametria riittää) päättää, onko kuva valokuva, kaavio, kuvakaappaus vai koristeellinen. Reitityspäätös määrää kehoten, mallin ja sen, luodaanko ylipäätään. Koristeellisia kuvia ei pidä lähettää mallille: ne pitää merkitä koristeellisiksi suoraan ja toimittaa tyhjällä alt-attribuutilla.

Käytä Claude 3.7 Sonnetia kaavioihin ja kuvakaappauksiin

Matriisi osoittaa, että Claude johtaa kahdessa sarakkeessa, joissa kieltäytyminen on oikea käytös. Konfiguroi kehote vaatimaan eksplisiittinen kieltäytyminen, kun teksti ei ole luettavissa, ja merkitsemään mikä tahansa kaavio, jonka akseliarvoja ei pysty lukemaan, eikä arvaile. Tuo kieltäytyminen esiin CMS:ssä “tarvitsee ihmiskuvauksen” -tilana, ei tyhjänä alt-attribuuttina.

Käytä GPT-4o:ta tai Gemini 2.0:aa valokuviin tuotenimerajoituksella

Informatiivisten valokuvien sarakkeessa kumpikin malli tuottaa hyväksymisasteita yli noin 65 %:n. Lisää kehoteohje, joka kieltää tuotenimen tunnistamisen, ellei logo tai tuotemerkkikirjoitus ole selvästi kuvassa. Rajoita tulosteiden pituus 125 merkkiin monisanaisen kolmen lauseen rakenteen torjumiseksi.

Ihmismuokkausvaihe ennen julkaisua

Jokainen tekoälyehdokas on luonnos. CMS-painike kirjoittaa ehdokkaan tarkistuskenttään, ei alt-attribuuttiin. Toimittaja joko hyväksyy, muokkaa tai korvaa alkuperäisellä tekstillä. Uutiskonteksteissa, saavutettavuuskonteksteissa tai missä tahansa, missä vammaisen henkilön virheellinen tunnistaminen olisi vahingollista, toimittajan tarkistusvaihe on ehdoton.

Auditointi aikataulun mukaan

Aja uudelleen otos julkaistuista alt-teksteistä matriisia vasten joka neljännesvuosi. Mallit ajautuvat; toimittajaversiot muuttuvat; vikatilat siirtyvät. Sadan kuvan otos vie yhden iltapäivän ja havaitsee käytösregressiot ennen kuin ruudunlukuohjelman käyttäjä sen tekee.

Mitä “automaatio” tarkoittaa ja mitä ei

Tekoälyn alt-tekstiominaisuus, joka kirjoittaa suoraan alt-attribuuttiin ilman ihmistarkistusta, ei ole saavutettavuusominaisuus — se on saavutettavuusseloste. WCAG-vaatimustenmukaisuus edellyttää edelleen, että tekstivaihtoehto on oikea, kontekstuaalinen ja vailla keksittyjä yksityiskohtia. Malli voi luonnostella; vain toimittaja voi toimittaa.

Johtopäätös: rima nousi, lattia ei

Tämän oppaan otsikko, rehellisesti kirjoitettuna, on se, että näköäly-kielimallit vuonna 2026 ovat nyt hyödyllinen ensimmäinen luonnos valokuvasarakkeessa ja hyödyllinen kieltäytymislähde kaaviosarakkeessa, ja nämä kaksi tosiasiaa yhdessä viittaavat hybridityönkulkuun eivätkä täysin automatisoituun. Rima nousi merkittävästi vuodesta 2022 vuoteen 2026 — hyväksymisasteet informatiivisissa valokuvissa ovat nyt korkeiden kuudenkymmenen prosenttiyksikön tasolla parhaissa suljetuissa malleissa, kun ne vuonna 2022 olivat lähempänä matalia kolmeakymmentä. Lattia ei noussut. Liikkumisapuvälineet tunnistetaan edelleen väärin, ASL muuttuu edelleen “elehtimiseksi” ja koristeelliset kuvat saavat edelleen lauseen, kun ne tarvitsevat hiljaisuutta.

Saavutettavuusseuraus on, että oikea oletus mille tahansa CMS:lle, joka toimittaa “automaattinen alt-teksti” -painikkeen vuonna 2026, ei ole “paina painiketta ja julkaise”. Se on “paina painiketta luonnostamaan, sitten tarkista ennen julkaisua”. Tätä tiukempi asetus toimittaa keksittyjä yksityiskohtia niille lukijoille, jotka ovat suorimmin riippuvaisia siitä, että tekstivaihtoehto on oikea. Tätä löysempi asetus — tekoälyn täydellinen sivuuttaminen — jättää 41 % kuvista tyhjillä alt-teksteillä käsittelemättä, vaikka luonnos olisi auttanut.

Ajamme tämän matriisin uudelleen marraskuussa 2026. Jos kaaviosarake on noussut yli 60 %:n hyväksymisrajan, hybridityönkulku tiukkenee. Siihen asti painike luonnostelee, toimittaja toimittaa.

”Malli voi luonnostella; vain toimittaja voi toimittaa.”

— tämä artikkeli, hybridityönkulun vaihe 4