ИИ и алтернативен текст
къде технологията наистина дава резултат през 2026
Визуално-езиковите модели вече могат да описват информативна снимка с плавност, която би изглеждала невъзможна през 2022 г. Те все още халюцинират текст върху екранни снимки, погрешно определят пола на видимо хора с увреждания и измислят марки, които никога не са били в кадъра. Това ръководство очертава границата между двете.
1. Същината на проблема през 2026 г.
Критерий за успех 1.1.1 от WCAG 2.2 не се е променил от 2008 г. Всяко нетекстово изображение, което носи смисъл, се нуждае от текстова алтернатива; всяко декоративно изображение трябва да бъде маркирано като декоративно. Това, което се промени между версията на тази статия, която бихме написали през 2022 г., и версията, която пишем през май 2026 г., е, че генерирането на правдоподобно звучащо изречение от масив пиксели вече не е тясното място. Генерирането на изречение, което е вярно, контекстуално подходящо и без измислени детайли, все още е.
Промяната има значение, защото повечето продукционни CMS платформи през 2026 г. идват с бутон „автоматичен алтернативен текст“. Бутонът извиква визуално-езиков модел зад API на доставчик и записва резултата директно в атрибута alt. Последицата за достъпността е пряка: ако бутонът е прав, изображение, което преди се публикуваше с празен alt, сега е описано на потребител на екранен четец. Ако бутонът греши, потребителят на екранен четец получава уверено формулирано изречение за нещо, което не е в изображението.
Това ръководство е за инженерите, които отговарят за този бутон. То преглежда петте визуални модела, които съставляват преобладаващата част от интеграциите на доставчиците през 2026 г., тества всеки от тях спрямо четирите канонични категории изображения, документира повтарящите се режими на отказ и завършва с хибриден работен процес, който смятаме за единствения защитим стандарт, докато основното поведение не се промени.
Кандидат за алтернативен текст от ИИ „дава резултат“, ако човек рецензент би го приел такъв, какъвто е, или би го приел с редакция от един токен. Всичко, което изисква пренаписване, е пропуск. Това е по-строг праг от академичната метрика CIDEr или BLEU, която моделът може да цитира — това е прагът, който трябва да преодолее един CMS бутон.
„Последицата за достъпността е пряка: ако бутонът е прав, изображение, което преди се публикуваше с празен alt, сега е описано на потребител на екранен четец. Ако бутонът греши, потребителят на екранен четец получава уверено формулирано изречение за нещо, което не е в изображението.“
2. Пейзажът на моделите през 2026 г.
Пет визуално-езикови модела доминират интеграциите, които виждаме в продукция: два затворени гранични модела (GPT-4o vision, Claude 3.7 Sonnet vision), един затворен модел, използван интензивно вътре в продуктите на Google и подчинените добавки за Workspace (Gemini 2.0), и два модела с отворени тегла, които идват в самостоятелно хоствани CMS плъгини, където правилата за местоположение на данните изключват затворените API (Llama-Vision-3, Pixtral). Всеки има отделен профил в теста по четири категории по-долу.
Комбинираните карти тук отразяват практическото поведение, което наблюдавахме при прибл. 600 тестови изображения през март и април 2026 г., а не маркетинговите твърдения. Разходите са на изображение при типична резолюция към май 2026 г. и изключват надценката на доставчика.
3. Тестът по четири категории
Насоките на дървото за решения на WCAG за нетекстово съдържание се свеждат на практика до четири категории: информативни снимки (човек, сцена, обект, който носи смисъл); диаграми и схеми (стълбовидна диаграма, диаграма на потока, анотирана карта); екранни снимки и UI (табло, състояние на грешка, панел с настройки); и декоративни (градиент на хедъра, разделител, запълващ елемент от стокова илюстрация). Съставихме тестов набор от 600 изображения, вземайки по 150 изображения на категория от контексти на новини за хора с увреждания, доклади на благотворителни организации, софтуерна документация и редакционно запълващо съдържание. Всеки модел създаде по един кандидат за алтернативен текст на изображение; трима човешки рецензенти отбелязаха всеки кандидат като приет, за редакция или отхвърлен. Матрицата по-долу отчита процента на приетите.
Числата не са замислени да коронясват победител. Те са замислени да ви кажат коя категория е най-рисковото място за публикуване на кандидат от ИИ без рецензия.
| Модел | Информативни снимки | Диаграми и схеми | Екранни снимки и UI | Декоративни (правилно празни) |
|---|---|---|---|---|
| GPT-4o vision | 71% | 34% | 52% | 41% |
| Claude 3.7 Sonnet vision | 68% | 49% | 61% | 58% |
| Gemini 2.0 | 66% | 38% | 64% | 44% |
| Llama-Vision-3 (90B) | 62% | 21% | 47% | 53% |
| Pixtral large | 57% | 26% | 42% | 48% |
При всеки модел двете най-слаби колони са диаграми и схеми и декоративни (правилно празни). Първата се проваля, защото моделът измисля стойности, които не може да прочете; втората се проваля, защото моделът пише изречение, когато правилният отговор е мълчание. И двете грешки са невидими за зрящ рецензент, който само проверява на случаен принцип колоната със снимки.
4. Четирите режима на отказ, които имат значение
Съвкупните проценти на приетите скриват текстурата на грешките. Преглеждайки отхвърлените кандидати в тестовия набор, четири режима на отказ се повтарят с достатъчна регулярност, за да обяснят огромната част от пропуските. Назоваваме ги тук, за да знае всеки редактор, който рецензира резултат от ИИ, кои модели да търси първи.
Халюциниран текст на екрана
Моделът пише, че ос на диаграма е озаглавена „Q3 2024 revenue“, когато диаграмата всъщност показва брой посещения на страница; моделът пише, че бутон на екранна снимка гласи „Submit“, когато гласи „Save and continue“. GPT-4o е най-честият нарушител тук; Claude 3.7 Sonnet най-често отказва, връщайки фраза като „диаграма, чийто етикет по оста не е четлив при тази резолюция“. Отказът е правилното поведение и точно това, което един CMS бутон трябва да показва.
Погрешно разпознаване на субекти с увреждания
Електрическа инвалидна количка става „моторизиран скутер“; бял бастун става „бастунче за ходене“; видимо човек с увреждане на снимка от протест на активисти е описан като „човек, седнал на стол, който гледа парада“. Моделът на грешката отразява състава на обучаващите данни. Нито един от петте тествани модела не се справи с разпознаването на помощни средства за придвижване със скорост, която бихме нарекли готова за продукция, а коригиращата редакция почти винаги е необходима.
Загуба на контекстуален нюанс
Снимка на двама души, които общуват на американски жестов език, е описана като „двама души жестикулират“; снимка на куче помощник под маса в ресторант е описана като „куче спи под мебел“. Пикселите са описани точно. Смисълът, който редакторът е вложил в изображението, не е. Контекстуалният нюанс е режимът на отказ, който матрицата не може да измери, и причината, поради която алтернативният текст от ИИ без редакционна рецензия на практика е грешният стандарт.
Измисляне на имена на марки
Моделът пише, че стокова снимка на лаптоп е „Apple MacBook“, когато лаптопът е с обикновен корпус с форма на Windows устройство; моделът пише, че небрандирана чаша за кафе е „чаша на Starbucks“. Gemini 2.0 е най-склонен към тази категория грешка в нашия тестов набор. Поправката е ограничение от страна на подканата: моделът се инструктира да отказва идентификация на марка по име, освен ако марков знак не е недвусмислено видим. Дори с ограничението остава необходима рецензия на извадка.
„Пикселите са описани точно. Смисълът, който редакторът е вложил в изображението, не е.“
5. Хибридният работен процес, който препоръчваме
Третирането на алтернативния текст от ИИ като „напълно автоматизиран“ или „безотговорен“ е фалшива дихотомия. Числата по категории казват нещо по-полезно: кандидатите от ИИ са годни като първа чернова в колоната със снимки и като източник на отказ в колоната с диаграми, а са активен риск в декоративната колона, освен ако работният процес няма изрична възможност за „маркиране като декоративно“. Правилният стандарт е хибрид, а стъпките по-долу са хибридът, който препоръчваме.
Насочвайте по категория на изображението преди генериране
Малък класификатор (няколко хиляди параметъра са достатъчни) решава дали изображението е снимка, диаграма, екранна снимка или декоративно. Решението за насочване определя подканата, модела и дали изобщо да се генерира. Декоративните изображения не бива да се изпращат на модела: те трябва да се маркират директно като декоративни и да се публикуват с празен alt.
Използвайте Claude 3.7 Sonnet за диаграми и екранни снимки
Матрицата показва, че Claude води в двете колони, където отказът е правилното поведение. Настройте подканата така, че да изисква изричен отказ, когато текстът не е четлив, и да маркира всяка диаграма, чиито стойности по осите не са четими, вместо да гадае. Показвайте отказа в CMS като състояние „нужно е човешко описание“, а не като празен alt.
Използвайте GPT-4o или Gemini 2.0 за снимки, с ограничение за имена на марки
За колоната с информативни снимки и двата модела дават проценти на приетите над прибл. 65%. Добавете инструкция от страна на подканата никога да не се идентифицира име на марка, освен ако лого или словна марка не са недвусмислено в кадъра. Ограничете дължината на резултата до 125 знака, за да обезкуражите многословния модел с три клаузи.
Преминаване през човешка редакция преди публикуване
Всеки кандидат от ИИ е чернова. CMS бутонът записва кандидата в поле за рецензия, а не в атрибута alt. Редакторът или приема, или редактира, или заменя с оригинален текст. За новинарски контексти, контексти за достъпност или каквото и да е, при което погрешното разпознаване на субект с увреждане би било вредно, преминаването през редактор не подлежи на договаряне.
Одит по график
Повторно проверявайте извадка от публикуваните алтернативни текстове спрямо матрицата всяко тримесечие. Моделите се отклоняват; компилациите на доставчиците се променят; режимите на отказ се изместват. Извадка от 100 изображения отнема следобед и улавя регресия в поведението, преди потребител на екранен четец да я открие.
Функция за алтернативен текст от ИИ, която записва директно в атрибута alt без човешка рецензия, не е функция за достъпност — тя е декларация за достъпност. Съответствието с WCAG все още изисква текстовата алтернатива да е вярна, контекстуална и неизмислена. Моделът може да изготви чернова; само редакторът може да публикува.
Заключение: летвата се вдигна, подът — не
Заглавието на това ръководство, написано честно, е, че визуално-езиковите модели през 2026 г. вече са полезна първа чернова за колоната със снимки и полезен източник на отказ за колоната с диаграми, и че двата факта заедно предполагат хибриден работен процес, а не напълно автоматизиран. Летвата се вдигна осезаемо между 2022 и 2026 г. — процентите на приетите при информативни снимки сега са в горните шейсет процента за най-добрите затворени модели, докато през 2022 г. бяха по-близо до долните трийсет. Подът — не. Помощните средства за придвижване все още се разпознават погрешно, жестовият език все още става „жестикулиране“, а декоративните изображения все още получават изречение, когато им трябва мълчание.
Последицата за достъпността е, че правилният стандарт за всяка CMS, която предлага бутон „автоматичен алтернативен текст“ през 2026 г., не е „натисни бутона и публикувай“. Той е „натисни бутона, за да изготвиш чернова, после рецензирай преди публикуване“. Всичко по-стегнато от това публикува измислени детайли пред читателите, които най-пряко зависят от това текстовата алтернатива да е вярна. Всичко по-хлабаво от това — пълно пренебрегване на ИИ — оставя 41-те % от изображенията с празни алтернативни текстове необработени, когато една чернова би помогнала.
Ще проведем тази матрица отново през ноември 2026 г. Ако колоната с диаграми се е изместила над линията от 60% приети, хибридният работен процес ще се затегне. Дотогава бутонът изготвя черновата, редакторът публикува.
„Моделът може да изготви чернова; само редакторът може да публикува.“