Sztuczna inteligencja i tekst alternatywny
co technologia faktycznie oferuje w 2026 roku

Modele wizualno-językowe potrafią dziś opisać informacyjne zdjęcie z płynnością, która jeszcze w 2022 roku wydawałaby się niemożliwa. Nadal jednak halucynują tekst na zrzutach ekranu, błędnie przypisują płeć osobom z widoczną niepełnosprawnością i wymyślają nazwy marek, których w kadrze nigdy nie było. Ten primer wyznacza granicę między jednym a drugim.

modeli wizualnych poddanych testom

testowane kategorie obrazów

approx. 62%

pułap użyteczności w pierwszym podejściu

Autor Dział inżynierski Disability World

11 min czytania

Aktualizacja maj 2026

Podstawy

1. Kształt problemu w 2026 roku

Kryterium sukcesu 1.1.1 WCAG 2.2 nie zmieniło się od 2008 roku. Każdy obraz niebędący tekstem, który przekazuje znaczenie, wymaga tekstowej alternatywy; każdy obraz dekoracyjny musi być oznaczony jako dekoracyjny. To, co zmieniło się między wersją tego artykułu, jaką napisalibyśmy w 2022 roku, a wersją pisaną w maju 2026, polega na tym, że generowanie brzmiącego wiarygodnie zdania z tablicy pikseli nie jest już wąskim gardłem. Nadal nim jest generowanie zdania, które jest poprawne, kontekstowo adekwatne i wolne od zmyślonych szczegółów.

Ta zmiana ma znaczenie, ponieważ większość produkcyjnych platform CMS w 2026 roku oferuje przycisk „auto alt-text“. Przycisk wywołuje model wizualno-językowy przez API dostawcy i zapisuje wynik bezpośrednio w atrybucie alt. Konsekwencja dla dostępności jest bezpośrednia: jeśli przycisk działa poprawnie, obraz, który wcześniej dostawał się do użytkownika z pustym atrybutem alt, zostaje teraz opisany dla użytkownika czytnika ekranu. Jeśli przycisk się myli, użytkownik czytnika ekranu otrzymuje pewnie sformułowane zdanie o czymś, czego na obrazie nie ma.

Ten primer jest przeznaczony dla inżynierów, którzy są właścicielami tego przycisku. Omawia pięć modeli wizualnych dominujących w zdecydowanej większości integracji z dostawcami w 2026 roku, testuje każdy z nich na czterech kanonicznych kategoriach obrazów, dokumentuje powtarzające się tryby awarii i kończy się hybrydowym przepływem pracy, który uważamy za jedyną możliwą do obronienia domyślną konfigurację, dopóki podstawowe zachowanie modeli się nie zmieni.

approx. 41%

obrazów w reprezentatywnym przeszukiwaniu 500 dużych stron e-commerce w USA trafia do użytkownika bez atrybutu alt lub z atrybutem pustym (wewnętrzny skan DW, marzec 2026).

approx. 18%

pozostałych atrybutów alt to automatycznie generowane nazwy plików lub domyślne frazy w rodzaju „image“ lub „product“ — obecne, lecz bezużyteczne dla użytkownika czytnika ekranu.

approx. 11%

atrybutów alt zostało wygenerowanych przez AI i nie poddano ich edycji — rozpoznawalne po charakterystycznej trójczłonowej strukturze zdania z zabezpieczeniami (wewnętrzny klasyfikator DW).

Co rozumiemy przez „dostarcza“

Kandydujący tekst alternatywny wygenerowany przez AI „dostarcza“, jeśli ludzki recenzent zaakceptowałby go w całości lub po jednej drobnej poprawce. Wszystko, co wymaga przepisania, jest chybione. To ostrzejsze kryterium niż akademicka metryka CIDEr czy BLEU, którą model mógłby przytoczyć — i jest to kryterium, jakie musi spełnić przycisk w CMS.

„Konsekwencja dla dostępności jest bezpośrednia: jeśli przycisk działa poprawnie, obraz, który wcześniej dostawał się do użytkownika z pustym atrybutem alt, zostaje teraz opisany dla użytkownika czytnika ekranu. Jeśli przycisk się myli, użytkownik czytnika ekranu otrzymuje pewnie sformułowane zdanie o czymś, czego na obrazie nie ma.“

— niniejszy artykuł, sekcja 1

Krajobraz

2. Krajobraz modeli w 2026 roku

Pięć modeli wizualno-językowych dominuje w integracjach produkcyjnych: dwa zamknięte modele graniczne (GPT-4o vision, Claude 3.7 Sonnet vision), jeden zamknięty model intensywnie wykorzystywany w produktach Google i wtyczkach do Workspace (Gemini 2.0) oraz dwa modele o otwartych wagach, stosowane w samodzielnie hostowanych wtyczkach CMS, gdzie przepisy o lokalizacji danych wykluczają korzystanie z zamkniętych API (Llama-Vision-3, Pixtral). Każdy z nich wykazuje odrębny profil w poniższym teście czterech kategorii.

Karty combo poniżej przedstawiają praktyczne zachowanie zaobserwowane na około 600 obrazach testowych w marcu i kwietniu 2026 roku — nie zaś twierdzenia marketingowe. Koszty podano za obraz przy typowej rozdzielczości według stanu na maj 2026 roku i nie uwzględniają marży dostawcy.

Najczęstszy domyślny model zamkniętego API w mid-marketowych CMS-ach

Mocna stronaZdjęcia informacyjne, kompozycja sceny

Słaba stronaHalucynuje tekst wyświetlany na ekranie

Koszt przybliżony / obrazapprox. 0,004 USD

Powszechny w korporacyjnych CMS-ach, gdzie redakcyjna weryfikacja jest częścią przepływu pracy

Mocna stronaOdmawia wymyślania nieczytelnego tekstu; wykresy

Słaba stronaZbyt rozbudowane opisy; wymaga wyraźnego promptu o długości

Koszt przybliżony / obrazapprox. 0,005 USD

Domyślny w dodatkach do Workspace i CMS-ach powiązanych z Google

Mocna stronaZrzuty ekranu, identyfikacja elementów interfejsu

Słaba stronaBłędnie identyfikuje sprzęt wspomagający ruch, wymyśla nazwy marek

Koszt przybliżony / obrazapprox. 0,003 USD

Samodzielnie hostowane wtyczki CMS, wdrożenia z wymogami lokalizacji danych w UE

Mocna stronaZdjęcia, klasyfikacja dekoracyjna

Słaba stronaWykresy; zgaduje wartości na osiach

Koszt przybliżony / obrazkoszt wnioskowania przy samodzielnym hostowaniu

Europejskie samodzielne hostowanie; wtyczki z mniejszymi modelami

Mocna stronaZwięzłe opisy; respektuje budżet długości

Słaba stronaNiższy wskaźnik odwzorowania kompozycji sceny na złożonych zdjęciach

Koszt przybliżony / obrazkoszt wnioskowania przy samodzielnym hostowaniu

Odniesienie

3. Test czterech kategorii

Wytyczne WCAG dotyczące treści niebędących tekstem sprowadzają się w praktyce do czterech kategorii: zdjęcia informacyjne (osoba, scena, przedmiot niosący znaczenie); wykresy i diagramy (wykres słupkowy, diagram przepływu, mapa z adnotacjami); zrzuty ekranu i interfejs użytkownika (panel, stan błędu, ustawienia); oraz dekoracyjne (gradient tła, separator, ilustracja wypełniająca). Zestaw testowy liczący 600 obrazów obejmował po 150 próbek z każdej kategorii, pobranych z kontekstów informacyjnych dotyczących niepełnosprawności, raportów organizacji charytatywnych, dokumentacji oprogramowania i materiałów redakcyjnych. Każdy model wygenerował jeden kandydujący tekst alt na obraz; trzech ludzkich recenzentów oznaczyło każdy kandydat jako zaakceptowany, do edycji lub odrzucony. Macierz poniżej podaje wskaźnik akceptacji.

Liczby nie mają wyłonić zwycięzcy. Mają wskazać, która kategoria jest najbardziej ryzykownym miejscem do wysyłania kandydatów AI bez weryfikacji.

Model	Zdjęcia informacyjne	Wykresy i diagramy	Zrzuty ekranu i UI	Dekoracyjne (poprawnie puste)
GPT-4o vision	71%	34%	52%	41%
Claude 3.7 Sonnet vision	68%	49%	61%	58%
Gemini 2.0	66%	38%	64%	44%
Llama-Vision-3 (90B)	62%	21%	47%	53%
Pixtral large	57%	26%	42%	48%

Dwie kolumny, na które należy zwrócić uwagę

We wszystkich modelach dwie najsłabsze kolumny to wykresy i diagramy oraz dekoracyjne (poprawnie puste). Pierwsza zawodzi, ponieważ model wymyśla wartości, których nie może odczytać; druga zawodzi, ponieważ model pisze zdanie, gdy poprawną odpowiedzią jest milczenie. Oba błędy są niewidoczne dla widzącego recenzenta, który wyrywkowo sprawdza jedynie kolumnę ze zdjęciami.

Diagnostyka

4. Cztery tryby awarii, które mają znaczenie

Zagregowane wskaźniki akceptacji ukrywają strukturę błędów. Analizując odrzucone kandydatury w zestawie testowym, cztery tryby awarii powtarzają się na tyle regularnie, że odpowiadają za zdecydowaną większość chybień. Nazywamy je tutaj, aby każdy redaktor weryfikujący wyniki AI wiedział, jakich wzorców szukać w pierwszej kolejności.

Halucynowany tekst na ekranie

Model pisze, że oś wykresu jest opisana jako „przychody Q3 2024“, choć wykres faktycznie pokazuje liczbę odsłon strony; model pisze, że przycisk na zrzucie ekranu ma etykietę „Wyślij“, choć naprawdę widnieje na nim „Zapisz i kontynuuj“. GPT-4o jest tu największym sprawcą; Claude 3.7 Sonnet najczęściej odmawia, zwracając frazę w stylu „wykres, którego etykieta osi jest nieczytelna przy tej rozdzielczości“. Odmowa to poprawne zachowanie i to właśnie ją powinien prezentować przycisk w CMS.

Błędna identyfikacja osób z niepełnosprawnością

Elektryczny wózek inwalidzki staje się „skuterem zmotoryzowanym“; biała laska staje się „laską do chodzenia“; osoba z widoczną niepełnosprawnością na zdjęciu z wiecu aktywistów jest opisywana jako „osoba siedząca na krześle i patrząca na paradę“. Ten wzorzec błędów odzwierciedla skład danych treningowych. Żaden z pięciu testowanych modeli nie identyfikował sprzętu wspomagającego poruszanie się na poziomie, który można by uznać za gotowy do wdrożenia produkcyjnego — edycja korygująca jest tu niemal zawsze konieczna.

Utrata niuansu kontekstowego

Zdjęcie dwóch osób używających Amerykańskiego Języka Migowego jest opisywane jako „dwie osoby gestykulujące“; zdjęcie psa przewodnika pod stołem w restauracji — jako „pies śpiący pod meblami“. Piksele są opisywane trafnie. Znaczenie, które redaktor chciał przekazać, umieszczając dany obraz, już nie. Utrata niuansu kontekstowego to tryb awarii, którego macierz nie jest w stanie zmierzyć, i właśnie dlatego tekst alternatywny generowany przez AI bez redakcyjnej weryfikacji jest w praktyce złą domyślną konfiguracją.

Fabrykowanie nazw marek

Model pisze, że stockowe zdjęcie laptopa to „Apple MacBook“, choć laptop jest ogólną obudową w stylu Windows; model pisze, że nienazwany kubek na kawę to „kubek Starbucksa“. Gemini 2.0 jest w naszym zestawie testowym najbardziej podatny na tę kategorię błędów. Rozwiązaniem jest ograniczenie po stronie promptu: należy nakazać modelowi odmowę identyfikowania nazw marek, chyba że znak firmowy jest jednoznacznie widoczny w kadrze. Nawet z tym ograniczeniem konieczna pozostaje weryfikacja wyrywkowa.

„Piksele są opisywane trafnie. Znaczenie, które redaktor chciał przekazać, umieszczając dany obraz, już nie.“

— niniejszy artykuł, tryb awarii 3

Poradnik

5. Rekomendowany hybrydowy przepływ pracy

Traktowanie tekstu alternatywnego generowanego przez AI jako „w pełni zautomatyzowanego“ lub „nieodpowiedzialnego“ to fałszywa alternatywa. Liczby według kategorii mówią coś bardziej użytecznego: kandydaci AI nadają się jako pierwszy szkic w kolumnie ze zdjęciami i jako źródło odmowy w kolumnie z wykresami, a w kolumnie dekoracyjnej stanowią aktywne ryzyko, chyba że przepływ pracy ma wyraźną funkcję „oznacz jako dekoracyjny“. Właściwą domyślną konfiguracją jest hybryda, a poniższe kroki opisują tę, którą rekomendujemy.

Klasyfikuj według kategorii obrazu przed generowaniem

Mały klasyfikator (wystarczy kilka tysięcy parametrów) decyduje, czy obraz to zdjęcie, wykres, zrzut ekranu czy element dekoracyjny. Decyzja o trasowaniu determinuje prompt, model i to, czy w ogóle generować opis. Obrazów dekoracyjnych nie należy wysyłać do modelu: powinny być oznaczone jako dekoracyjne bezpośrednio i trafiać do publikacji z pustym atrybutem alt.

Używaj Claude 3.7 Sonnet do wykresów i zrzutów ekranu

Macierz pokazuje, że Claude wiedzie w dwóch kolumnach, gdzie poprawnym zachowaniem jest odmowa. Należy skonfigurować prompt tak, aby wymagał wyraźnej odmowy, gdy tekst jest nieczytelny, oraz oznaczał każdy wykres, którego wartości na osiach są nieczytelne, zamiast zgadywać. Odmowę należy wyświetlić w CMS jako stan „wymaga opisu przez człowieka“, a nie jako pusty atrybut alt.

Używaj GPT-4o lub Gemini 2.0 do zdjęć — z ograniczeniem dotyczącym marek

Dla kolumny ze zdjęciami informacyjnymi oba modele osiągają wskaźniki akceptacji powyżej ok. 65%. Należy dodać instrukcję po stronie promptu, zakazującą identyfikowania nazw marek, chyba że logo lub znak słowny są jednoznacznie widoczne w kadrze. Należy ograniczyć długość wyniku do 125 znaków, aby zniechęcić do stosowania rozbudowanego wzorca trójczłonowego zdania.

Etap ludzkiej edycji przed publikacją

Każdy kandydat AI jest szkicem. Przycisk w CMS zapisuje kandydata do pola weryfikacji, a nie do atrybutu alt. Redaktor akceptuje, edytuje lub zastępuje go oryginalnym tekstem. W kontekście newsowym, dostępnościowym lub wszędzie tam, gdzie błędna identyfikacja osoby z niepełnosprawnością byłaby szkodliwa, etap redakcyjny jest niezbędny.

Regularny audyt według harmonogramu

Co kwartał należy ponownie testować próbkę opublikowanych atrybutów alt na macierzy. Modele dryfują; buildy dostawców się zmieniają; tryby awarii ewoluują. Próbka 100 obrazów zajmuje popołudnie i pozwala wykryć regresję zachowania, zanim zrobi to użytkownik czytnika ekranu.

Czym „automatyzacja“ powinna i nie powinna być

Funkcja tekstu alternatywnego AI, która zapisuje wynik bezpośrednio do atrybutu alt bez ludzkiej weryfikacji, nie jest funkcją dostępności — jest deklaracją dostępności. Zgodność z WCAG nadal wymaga, aby tekstowa alternatywa była poprawna, kontekstowa i pozbawiona zmyślonych treści. Model może tworzyć szkice; tylko redaktor może publikować.

Podsumowanie: poprzeczka się podniosła, podłoga nie

Rzetelny nagłówek tego primeru brzmi: modele wizualno-językowe w 2026 roku są użytecznym pierwszym szkicem dla kolumny ze zdjęciami i użytecznym źródłem odmowy dla kolumny z wykresami, a oba te fakty razem sugerują hybrydowy przepływ pracy, a nie w pełni zautomatyzowany. Poprzeczka realnie się podniosła między 2022 a 2026 rokiem — wskaźniki akceptacji dla zdjęć informacyjnych wynoszą teraz w przedziale wysokich sześćdziesiątek dla najlepszych zamkniętych modeli, podczas gdy w 2022 roku plasowały się bliżej niskich trzydziéstek. Podłoga nie podniosła się. Sprzęt wspomagający ruch jest nadal błędnie identyfikowany, język migowy nadal staje się „gestykulowaniem“, a obrazy dekoracyjne nadal dostają zdanie, gdy potrzebują ciszy.

Konsekwencja dla dostępności jest taka, że właściwą domyślną konfiguracją dla każdego CMS-a oferującego w 2026 roku przycisk „auto alt-text“ nie jest „naciśnij przycisk i opublikuj“. Jest nią „naciśnij przycisk, aby uzyskać szkic, a następnie zweryfikuj przed publikacją“. Ściślejsze podejście — całkowite ignorowanie AI — pozostawia 41% obrazów z pustymi atrybutami alt bez żadnego wsparcia w sytuacji, gdy szkic mógłby pomóc.

Ponownie uruchomimy tę macierz w listopadzie 2026 roku. Jeśli kolumna z wykresami przekroczy próg akceptacji 60%, hybrydowy przepływ pracy zostanie zaostrzony. Do tego czasu: model tworzy szkice, redaktor publikuje.

„Model może tworzyć szkice; tylko redaktor może publikować.“

— niniejszy artykuł, krok 4 hybrydowego przepływu pracy