Tekoäly ja vaihtoehtoinen teksti
missä teknologia todella toimii vuonna 2026
Näköäly-kiellimallit pystyvät nyt kuvailemaan informatiivisen valokuvan sujuvuudella, joka olisi vaikuttanut mahdottomalta vuonna 2022. Ne hallusinoivat silti tekstiä kuvakaappauksissa, määrittelevät näkyvästi vammaisten henkilöiden sukupuolen väärin ja keksivät tuotenimiä, joita ei ollut kuvassa. Tämä opas kartoittaa rajan näiden kahden välillä.
1. Ongelman muoto vuonna 2026
WCAG 2.2:n onnistumiskriteeri 1.1.1 ei ole muuttunut vuodesta 2008. Jokainen merkitystä välittävä ei-tekstinen kuva tarvitsee tekstivaihtoehdon; jokainen koristeellinen kuva on merkittävä koristeelliseksi. Mikä on muuttunut — siitä artikkelista, jonka olisimme kirjoittaneet vuonna 2022, siihen versioon, jonka kirjoitamme toukokuussa 2026 — on se, että uskottavan kuulovan lauseen tuottaminen pikselijoukosta ei enää ole pullonkaula. Sen sijaan sellaisen lauseen tuottaminen, joka on oikea, kontekstuaalisesti sopiva ja vailla keksittyjä yksityiskohtia, on edelleen.
Muutos on merkittävä, koska useimmat tuotanto-CMS-alustat vuonna 2026 tarjoavat “automaattinen alt-teksti” -painikkeen. Painike kutsuu näköäly-kielimallia toimittajan API:n kautta ja kirjoittaa tuloksen suoraan alt-attribuuttiin. Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.
Tämä opas on insinööreille, jotka omistavat tuon painikkeen. Se kartoittaa viisi näkömallia, jotka kattavat suuren enemmistön toimittajaintegraatioista vuonna 2026, testaa jokaisen neljässä kanonisessa kuvakategoriassa, dokumentoi toistuvat vikatilat ja päättyy hybridityönkulkuun, jonka uskomme olevan ainoa puolustettava oletusasetus, kunnes taustalla oleva käyttäytyminen muuttuu.
Tekoälyn alt-tekstiehdokas “toimii”, jos ihmisarvioija hyväksyisi sen sellaisenaan tai yhden sanan muokkauksella. Mikä tahansa, joka vaatii uudelleenkirjoittamista, on epäonnistuminen. Tämä on tiukempi mittari kuin akateeminen CIDEr- tai BLEU-metriikka, johon malli saattaisi viitata — se on se mittari, jonka CMS-painikkeen on ylitettävä.
”Saavutettavuusseuraus on suora: jos painike on oikeassa, kuva, joka aiemmin toimitettiin tyhjällä alt-attribuutilla, kuvaillaan nyt ruudunlukuohjelman käyttäjälle. Jos painike on väärässä, ruudunlukuohjelman käyttäjä saa itsevarmasti muotoillun lauseen jostakin, mitä ei ole kuvassa.”
2. Mallimaisema vuonna 2026
Viisi näköäly-kielimallia hallitsee tuotannossa näkemiämme integraatioita: kaksi suljettua rajamallia (GPT-4o vision, Claude 3.7 Sonnet vision), yksi suljettu malli, jota käytetään paljon Google-tuotteissa ja Workspace-lisäosissa (Gemini 2.0), sekä kaksi avoimen painon mallia, jotka toimitetaan itsehostettavissa CMS-lisäosissa, joissa tietojen sijainti sulkee pois suljetut API:t (Llama-Vision-3, Pixtral). Jokaisella on erillinen profiili alla olevassa nelikategoriaisessa testissä.
Tässä esitetyt yhdistelmäkortit kuvaavat käytännöllistä käyttäytymistä, jonka havaitsimme noin 600 testikuvassa maalis- ja huhtikuussa 2026, ei markkinointiväitteitä. Kustannukset ovat per kuva tyypillisessä resoluutiossa toukokuulta 2026 ilman toimittajakorotuksia.
3. Nelikategoriainen testi
WCAG:n päätöspuuohjaus ei-tekstiselle sisällölle tiivistyy käytännössä neljään kategoriaan: informatiiviset valokuvat (henkilö, kohtaus, merkitystä välittävä esine); kaaviot ja diagrammit (pylväsdiagrammi, virtauskaavio, kommentoitu kartta); kuvakaappaukset ja käyttöliittymä (kojelauta, virhetila, asetuspaneeli); ja koristeelliset (hero-liukuväri, jako-viiva, varastokuvaustäyte). Kokosimme 600 kuvan testijoukon, josta 150 kuvaa per kategoria vammaisiin liittyvistä uutisista, hyväntekeväisyysjärjestöjen raporteista, ohjelmistodokumentaatiosta ja toimituksellisesta täytetavarasta. Jokainen malli tuotti yhden alt-ehdokkaan per kuva; kolme ihmisarvioijaa merkitsi jokaisen ehdokkaan joko hyväksytyksi, muokattavaksi tai hylätyksi. Alla oleva matriisi ilmoittaa hyväksymisasteen.
Luvut eivät ole tarkoitettu kruunaamaan voittajaa. Ne on tarkoitettu kertomaan, missä kategoriassa on riskialtisinta toimittaa tekoälyehdokas ilman tarkistusta.
| Malli | Informatiiviset valokuvat | Kaaviot ja diagrammit | Kuvakaappaukset ja käyttöliittymä | Koristeelliset (oikein null) |
|---|---|---|---|---|
| GPT-4o vision | 71 % | 34 % | 52 % | 41 % |
| Claude 3.7 Sonnet vision | 68 % | 49 % | 61 % | 58 % |
| Gemini 2.0 | 66 % | 38 % | 64 % | 44 % |
| Llama-Vision-3 (90B) | 62 % | 21 % | 47 % | 53 % |
| Pixtral large | 57 % | 26 % | 42 % | 48 % |
Jokaisessa mallissa kaksi heikointa saraketta ovat kaaviot ja diagrammit sekä koristeelliset (oikein null). Ensimmäinen epäonnistuu, koska malli keksii arvoja, joita se ei pysty lukemaan; toinen epäonnistuu, koska malli kirjoittaa lauseen, kun oikea vastaus on hiljaisuus. Molemmat virheet ovat näkymättömiä näkevää arvioijalle, joka tarkistaa vain pistokoeluontoisesti valokuvasarakkeen.
4. Neljä merkittävää vikatilaa
Kokonaishyväksymisasteet piilottavat virheiden tekstuurin. Tarkastelemalla hylättyjä ehdokkaita koko testijoukossa neljä vikatilatyyppiä toistuu riittävän säännöllisesti, että ne kattavat suuren enemmistön epäonnistumisista. Nimeämme ne tässä, jotta jokainen tekoälytulosteen arvioija tietää, mitä malleja etsiä ensin.
Hallusinoitu ruudulla näkyvä teksti
Malli kirjoittaa, että kaavion akseli on merkitty “Q3 2024 -tuotto”, vaikka kaavio näyttää sivukatselukerrat; malli kirjoittaa, että kuvakaappauksen painike lukee “Submit”, vaikka se lukee “Tallenna ja jatka”. GPT-4o on tässä pahin rikkoja; Claude 3.7 Sonnet kieltäytyy useimmiten palauttaen sellaisen lauseen kuin “kaavio, jonka akselimerkinät eivät ole luettavissa tässä resoluutiossa”. Kieltäytyminen on oikea käytös, ja se on oikea asia CMS-painikkeelle näyttää.
Vammaisten henkilöiden virheellinen tunnistaminen
Sähköpyörätuoli muuttuu “moottoroitu skootteriksi”; valkoinen keppi muuttuu “kävelykepiksi”; näkyvästi vammainen henkilö aktivismimielenosoituksen valokuvassa kuvaillaan “henkilönä, joka istuu tuolissa seuraten paraatia”. Virhemalli heijastaa koulutusdata-aineiston koostumusta. Yksikään viidestä testaamastamme mallista ei käsitellyt liikkumisapuvälineiden tunnistamista tuotantovalmiilla tasolla, ja korjaava muokkaus on lähes aina välttämätön.
Kontekstuaalisen vivahteen menetys
Valokuva kahdesta amerikanviittomakieltä viittovasta henkilöstä kuvataan “kahdena elehtivänä henkilönä”; valokuva opaskoirasta ravintolan pöydän alla kuvataan “huonekalun alla nukkuvana koirana”. Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei. Kontekstuaalinen vivahde on vikatilatyyppi, jota matriisi ei pysty mittaamaan, ja syy siihen, miksi tekoälyn alt-teksti ilman toimituksellista tarkistusta on käytännössä väärä oletus.
Tuotenimen keksiminen
Malli kirjoittaa, että kannettavan tietokoneen varastokuva on “Apple MacBook”, vaikka kannettava on yleinen Windows-muotoinen runko; malli kirjoittaa, että merkittömässä kahvimukissa on “Starbucks-muki”. Gemini 2.0 on altein tälle virhekategorialle testijoukosamme. Korjaus on kehoterajoitus: ohjeista mallia kieltäytymään nimetyn tuoteen tunnistamisesta, ellei tuotemerkki ole epäselvästi näkyvillä. Rajoituksesta huolimatta otantatasoinen tarkistus on edelleen välttämätön.
”Pikselit kuvaillaan tarkasti. Merkitys, jonka toimittaja asetti kuvan välittämään, ei.”
5. Suosittelemamme hybridityönkulku
Tekoälyn alt-tekstin pitäminen joko “täysin automatisoituna” tai “vastuuttomana” on väärä dikotomia. Kategoriakohtiaiset luvut kertovat jotain hyödyllisempää: tekoälyehdokkaat ovat käytettäviä ensimmäisenä luonnoksena valokuvasarakkeessa ja kieltäytymislähteenä kaaviosarakkeessa, ja ne ovat aktiivinen riski koristeellisessa sarakkeessa, ellei työnkulussa ole eksplisiittistä “merkitse koristeelliseksi” -toimintoa. Oikea oletus on hybridi, ja alla olevat vaiheet ovat suosittelemamme hybridi.
Reititä kuvakategorian mukaan ennen luomista
Pieni luokitin (muutama tuhat parametria riittää) päättää, onko kuva valokuva, kaavio, kuvakaappaus vai koristeellinen. Reitityspäätös määrää kehoten, mallin ja sen, luodaanko ylipäätään. Koristeellisia kuvia ei pidä lähettää mallille: ne pitää merkitä koristeellisiksi suoraan ja toimittaa tyhjällä alt-attribuutilla.
Käytä Claude 3.7 Sonnetia kaavioihin ja kuvakaappauksiin
Matriisi osoittaa, että Claude johtaa kahdessa sarakkeessa, joissa kieltäytyminen on oikea käytös. Konfiguroi kehote vaatimaan eksplisiittinen kieltäytyminen, kun teksti ei ole luettavissa, ja merkitsemään mikä tahansa kaavio, jonka akseliarvoja ei pysty lukemaan, eikä arvaile. Tuo kieltäytyminen esiin CMS:ssä “tarvitsee ihmiskuvauksen” -tilana, ei tyhjänä alt-attribuuttina.
Käytä GPT-4o:ta tai Gemini 2.0:aa valokuviin tuotenimerajoituksella
Informatiivisten valokuvien sarakkeessa kumpikin malli tuottaa hyväksymisasteita yli noin 65 %:n. Lisää kehoteohje, joka kieltää tuotenimen tunnistamisen, ellei logo tai tuotemerkkikirjoitus ole selvästi kuvassa. Rajoita tulosteiden pituus 125 merkkiin monisanaisen kolmen lauseen rakenteen torjumiseksi.
Ihmismuokkausvaihe ennen julkaisua
Jokainen tekoälyehdokas on luonnos. CMS-painike kirjoittaa ehdokkaan tarkistuskenttään, ei alt-attribuuttiin. Toimittaja joko hyväksyy, muokkaa tai korvaa alkuperäisellä tekstillä. Uutiskonteksteissa, saavutettavuuskonteksteissa tai missä tahansa, missä vammaisen henkilön virheellinen tunnistaminen olisi vahingollista, toimittajan tarkistusvaihe on ehdoton.
Auditointi aikataulun mukaan
Aja uudelleen otos julkaistuista alt-teksteistä matriisia vasten joka neljännesvuosi. Mallit ajautuvat; toimittajaversiot muuttuvat; vikatilat siirtyvät. Sadan kuvan otos vie yhden iltapäivän ja havaitsee käytösregressiot ennen kuin ruudunlukuohjelman käyttäjä sen tekee.
Tekoälyn alt-tekstiominaisuus, joka kirjoittaa suoraan alt-attribuuttiin ilman ihmistarkistusta, ei ole saavutettavuusominaisuus — se on saavutettavuusseloste. WCAG-vaatimustenmukaisuus edellyttää edelleen, että tekstivaihtoehto on oikea, kontekstuaalinen ja vailla keksittyjä yksityiskohtia. Malli voi luonnostella; vain toimittaja voi toimittaa.
Johtopäätös: rima nousi, lattia ei
Tämän oppaan otsikko, rehellisesti kirjoitettuna, on se, että näköäly-kielimallit vuonna 2026 ovat nyt hyödyllinen ensimmäinen luonnos valokuvasarakkeessa ja hyödyllinen kieltäytymislähde kaaviosarakkeessa, ja nämä kaksi tosiasiaa yhdessä viittaavat hybridityönkulkuun eivätkä täysin automatisoituun. Rima nousi merkittävästi vuodesta 2022 vuoteen 2026 — hyväksymisasteet informatiivisissa valokuvissa ovat nyt korkeiden kuudenkymmenen prosenttiyksikön tasolla parhaissa suljetuissa malleissa, kun ne vuonna 2022 olivat lähempänä matalia kolmeakymmentä. Lattia ei noussut. Liikkumisapuvälineet tunnistetaan edelleen väärin, ASL muuttuu edelleen “elehtimiseksi” ja koristeelliset kuvat saavat edelleen lauseen, kun ne tarvitsevat hiljaisuutta.
Saavutettavuusseuraus on, että oikea oletus mille tahansa CMS:lle, joka toimittaa “automaattinen alt-teksti” -painikkeen vuonna 2026, ei ole “paina painiketta ja julkaise”. Se on “paina painiketta luonnostamaan, sitten tarkista ennen julkaisua”. Tätä tiukempi asetus toimittaa keksittyjä yksityiskohtia niille lukijoille, jotka ovat suorimmin riippuvaisia siitä, että tekstivaihtoehto on oikea. Tätä löysempi asetus — tekoälyn täydellinen sivuuttaminen — jättää 41 % kuvista tyhjillä alt-teksteillä käsittelemättä, vaikka luonnos olisi auttanut.
Ajamme tämän matriisin uudelleen marraskuussa 2026. Jos kaaviosarake on noussut yli 60 %:n hyväksymisrajan, hybridityönkulku tiukkenee. Siihen asti painike luonnostelee, toimittaja toimittaa.
”Malli voi luonnostella; vain toimittaja voi toimittaa.”