A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Engineering-Primer · KI + Alternativtext

KI und Alternativtext: wo die Technologie 2026 tatsächlich liefert

Ein Engineering-Primer zum Stand KI-generierter Alternativtexte 2026. Getestet wurden GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 und Pixtral in vier Bildkategorien — mit genauen Ergebnissen, wo die Technologie liefert und wo sie noch halluziniert.

KI und Alternativtext
wo die Technologie 2026 tatsächlich liefert

Vision-Sprachmodelle können ein informatives Foto heute mit einer Flüssigkeit beschreiben, die 2022 noch unmöglich gewirkt hätte. Sie halluzinieren weiterhin Text auf Screenshots, weisen sichtbar behinderten Personen falsche Merkmale zu und erfinden Markennamen, die nie im Bild waren. Dieser Primer kartiert die Grenzlinie zwischen beidem.

5
getestete Vision-Modelle
4
getestete Bildkategorien
ca. 62 %
Erstdurchlauf-Nutzbarkeitsdecke
11 Min. Lesezeit
Aktualisiert Mai 2026

1. Die Form des Problems 2026

WCAG 2.2 Erfolgskriterium 1.1.1 hat sich seit 2008 nicht verändert. Jedes nicht-textliche Bild, das Bedeutung trägt, benötigt eine Textalternative; jedes dekorative Bild muss als dekorativ gekennzeichnet werden. Was sich zwischen der Version dieses Artikels, die 2022 hätte geschrieben werden können, und der Version, die im Mai 2026 vorliegt, verändert hat, ist folgendes: Einen plausibel klingenden Satz aus einem Pixelarray zu erzeugen, ist nicht mehr der Engpass. Einen Satz zu erzeugen, der korrekt, kontextuell angemessen und frei von erfundenen Details ist, ist es hingegen noch immer.

Diese Verschiebung ist bedeutsam, weil die meisten Produktions-CMS-Plattformen 2026 einen „Auto-Alternativtext“-Button mitliefern. Der Button ruft ein Vision-Sprachmodell über eine Anbieter-API auf und schreibt das Ergebnis direkt in das alt-Attribut. Die Konsequenz für die Barrierefreiheit ist direkt: Liegt der Button richtig, wird ein Bild, das bisher mit leerem Alt geliefert wurde, nun einem Screenreader-Nutzer beschrieben. Liegt der Button falsch, erhält der Screenreader-Nutzer einen selbstsicher formulierten Satz über etwas, das nicht im Bild ist.

Dieser Primer richtet sich an die Ingenieurinnen und Ingenieure, die diesen Button verantworten. Er untersucht die fünf Vision-Modelle, die den überwiegenden Teil der Anbieterintegrationen 2026 ausmachen, testet jedes gegen die vier kanonischen Bildkategorien, dokumentiert die wiederkehrenden Fehlermodi und endet mit einem hybriden Workflow, der nach unserem Urteil der einzig vertretbare Standard ist, bis sich das zugrundeliegende Verhalten ändert.

ca. 41 %
der Bilder auf einem repräsentativen Crawl von 500 großen US-E-Commerce-Seiten werden ohne oder mit leerem Alt-Attribut ausgeliefert (DW-interner Scan, März 2026).
ca. 18 %
der verbleibenden Alts sind automatisch generierte Dateinamen oder Standardphrasen wie „image“ oder „product“ — vorhanden, aber für eine Screenreader-Nutzerin nutzlos.
ca. 11 %
der Alts sind KI-generiert und unbearbeitet — erkennbar an ihrer charakteristischen dreiteiligen abgesicherten Satzstruktur (DW-interner Klassifikator).
Was wir mit „liefert“ meinen

Ein KI-Alternativtext-Kandidat „liefert“, wenn eine menschliche Prüferin ihn so übernehmen oder mit einer einzigen Token-Korrektur akzeptieren würde. Alles, was eine Umformulierung erfordert, gilt als Fehler. Das ist ein strengeres Maß als die akademische CIDEr- oder BLEU-Metrik, die ein Modell anführen könnte — und genau der Maßstab, den ein CMS-Button erfüllen muss.

„Die Konsequenz für die Barrierefreiheit ist direkt: Liegt der Button richtig, wird ein Bild, das bisher mit leerem Alt geliefert wurde, nun einem Screenreader-Nutzer beschrieben. Liegt der Button falsch, erhält der Screenreader-Nutzer einen selbstsicher formulierten Satz über etwas, das nicht im Bild ist.“

— dieser Artikel, Abschnitt 1

2. Die Modelllandschaft 2026

Fünf Vision-Sprachmodelle dominieren die Integrationen, die in Produktion zu beobachten sind: zwei geschlossene Frontier-Modelle (GPT-4o Vision, Claude 3.7 Sonnet Vision), ein geschlossenes Modell, das intensiv in Google-Produkten und nachgelagerten Workspace-Add-ons eingesetzt wird (Gemini 2.0), sowie zwei Open-Weights-Modelle, die in selbst gehosteten CMS-Plugins eingesetzt werden, wenn Datenschutzanforderungen geschlossene APIs ausschließen (Llama-Vision-3, Pixtral). Jedes zeigt ein eigenes Profil im Vier-Kategorien-Test unten.

Die Kombikarten hier spiegeln das praktische Verhalten wider, das über ca. 600 Testbilder im März und April 2026 beobachtet wurde — nicht die Marketingaussagen. Kosten gelten pro Bild bei typischer Auflösung, Stand Mai 2026, ohne Anbieter-Aufschlag.

GPT-4o Vision
OpenAI · gpt-4o (Build Mai 2026)
Häufigster geschlossener API-Standard in mittelgroßen CMS
StärkeInformative Fotos, Szenenkomposition
SchwächeHalluziniert On-Screen-Text
Ca. Kosten / Bildca. 0,004 USD
Claude 3.7 Sonnet Vision
Anthropic · claude-3-7-sonnet
Verbreitet in Enterprise-CMS, wo redaktionelle Prüfung Teil des Workflows ist
StärkeVerweigert das Erfinden von nicht lesbarem Text; Diagramme
SchwächeWeitschweifig; erfordert explizite Längenvorgabe
Ca. Kosten / Bildca. 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro Vision-Modus
Standard in Workspace-Add-ons, Google-nahen CMS
StärkeScreenshots, UI-Element-Identifikation
SchwächeVerwechselt Mobilitätshilfen, erfindet Markennamen
Ca. Kosten / Bildca. 0,003 USD
Llama-Vision-3
Meta · 90B Vision, Open Weights
Selbst gehostete CMS-Plugins, EU-Datenschutz-Deployments
StärkeFotos, dekorative Klassifikation
SchwächeDiagramme; rät Achsenwerte
Ca. Kosten / BildSelbst gehostete Inferenzkosten
Pixtral
Mistral · pixtral-large, Open Weights
Europäisch selbst gehostet; kleinere Modell-Plugins
StärkeKompakte Ausgaben; respektiert Längenvorgaben
SchwächeGeringere Szenenkompositionstreue bei komplexen Fotos
Ca. Kosten / BildSelbst gehostete Inferenzkosten

3. Der Vier-Kategorien-Test

Die WCAG-Entscheidungsbaumrichtlinien für Nicht-Textelemente reduzieren sich in der Praxis auf vier Kategorien: informative Fotos (eine Person, eine Szene, ein bedeutungstragendes Objekt); Diagramme und Grafiken (ein Balkendiagramm, ein Ablaufdiagramm, eine kommentierte Karte); Screenshots und UI (ein Dashboard, ein Fehlerzustand, ein Einstellungsfenster); und Dekoratives (ein Hero-Gradient, ein Trennstrich, ein Stock-Illustration-Füller). Es wurde ein 600-Bilder-Testset mit 150 Bildern pro Kategorie aus Kontexten zu Behinderungsnachrichten, Charityberichten, Software-Dokumentation und redaktionellem Füller zusammengestellt. Jedes Modell produzierte einen Alternativtext-Kandidaten pro Bild; drei menschliche Prüfende kennzeichneten jeden Kandidaten als akzeptiert, bearbeitet oder abgelehnt. Die Matrix unten gibt die Akzeptanzrate an.

Die Zahlen sollen keinen Sieger küren. Sie sollen zeigen, welche Kategorie das riskanteste Feld ist, um einen KI-Kandidaten ohne Prüfung auszuliefern.

ModellInformative FotosDiagramme & GrafikenScreenshots & UIDekorativ (korrekt null)
GPT-4o Vision71 %34 %52 %41 %
Claude 3.7 Sonnet Vision68 %49 %61 %58 %
Gemini 2.066 %38 %64 %44 %
Llama-Vision-3 (90B)62 %21 %47 %53 %
Pixtral large57 %26 %42 %48 %
Die zwei Spalten im Fokus

Bei allen Modellen sind die zwei schwächsten Spalten Diagramme & Grafiken und Dekorativ (korrekt null). Die erste versagt, weil das Modell Werte erfindet, die es nicht lesen kann; die zweite, weil das Modell einen Satz schreibt, wenn die korrekte Antwort Schweigen ist. Beide Fehler sind für sehende Prüfende unsichtbar, wenn nur die Fotospalte stichprobenhaft geprüft wird.


4. Die vier relevanten Fehlermodi

Aggregierte Akzeptanzraten verbergen die Textur der Fehler. Bei der Durchsicht der abgelehnten Kandidaten im gesamten Testset treten vier Fehlermodi mit einer Regelmäßigkeit auf, die den überwiegenden Teil der Fehlschläge erklärt. Sie werden hier benannt, damit jede Redakteurin, die KI-Ausgaben prüft, weiß, welche Muster zuerst zu suchen sind.

1

Halluzinierter On-Screen-Text

Das Modell schreibt, eine Diagrammachse sei beschriftet mit „Q3-2024-Umsatz“, obwohl das Diagramm tatsächlich Seitenaufrufzahlen zeigt; das Modell schreibt, der Button eines Screenshots laute „Senden“, obwohl er „Speichern und fortfahren“ lautet. GPT-4o ist hier der schlimmste Täter; Claude 3.7 Sonnet verweigert am häufigsten und gibt eine Formulierung zurück wie „ein Diagramm, dessen Achsenbeschriftung in dieser Auflösung nicht lesbar ist“. Die Verweigerung ist das korrekte Verhalten — und das Richtige, das ein CMS-Button anzeigen sollte.

2

Falsche Identifizierung von Personen mit Behinderungen

Ein Elektrorollstuhl wird zu „einem motorisierten Roller“; ein Langstock wird zu „einem Gehstock“; eine sichtbar behinderte Person auf einem Foto einer Aktivismus-Kundgebung wird beschrieben als „eine Person, die auf einem Stuhl sitzt und der Parade zuschaut“. Das Fehlermuster spiegelt die Zusammensetzung der Trainingsdaten. Keines der fünf getesteten Modelle erzielte bei der Identifikation von Mobilitätshilfen eine Rate, die als produktionsreif bezeichnet werden könnte — die korrigierende Bearbeitung ist fast immer erforderlich.

3

Verlust von Kontextnuancen

Ein Foto zweier Personen, die American Sign Language verwenden, wird beschrieben als „zwei Personen, die gestikulieren“; ein Foto eines Assistenzhundes unter einem Restauranttisch wird beschrieben als „ein Hund, der unter Möbeln schläft“. Die Pixel werden korrekt beschrieben. Die Bedeutung, wegen derer die Redaktion das Bild platziert hat, wird nicht vermittelt. Kontextnuance ist der Fehlermodus, den die Matrix nicht messen kann — und der Grund, warum KI-Alternativtext ohne redaktionelle Prüfung in der Praxis der falsche Standard ist.

4

Erfindung von Markennamen

Das Modell schreibt, ein Stock-Foto eines Laptops sei „ein Apple MacBook“, obwohl der Laptop ein generisches Windows-Chassis ist; das Modell schreibt, ein unmarkierter Kaffeebecher sei „ein Starbucks-Becher“. Gemini 2.0 ist in unserem Testset am anfälligsten für diese Fehlerklasse. Die Lösung ist eine Prompt-seitige Einschränkung: Das Modell wird angewiesen, Markenidentifikationen zu verweigern, es sei denn, ein Markenzeichen ist eindeutig sichtbar. Selbst mit dieser Einschränkung bleibt eine Stichprobenprüfung erforderlich.

„Die Pixel werden korrekt beschrieben. Die Bedeutung, wegen derer die Redaktion das Bild platziert hat, wird nicht vermittelt.“

— dieser Artikel, Fehlermodus 3

5. Der empfohlene hybride Workflow

KI-Alternativtext als entweder „vollständig automatisiert“ oder „unverantwortlich“ zu behandeln, ist eine falsche Dichotomie. Die kategorienbezogenen Zahlen sagen etwas Nützlicheres: KI-Kandidaten sind als Erstentwurf in der Fotospalte nutzbar und als Verweigerungsquelle in der Diagrammspalte — und sie sind ein aktives Risiko in der dekorativen Spalte, sofern der Workflow keine explizite „Als dekorativ markieren“-Funktion bietet. Der richtige Standard ist ein hybrider; die folgenden Schritte sind der empfohlene Hybrid.

1

Nach Bildkategorie routen, bevor generiert wird

Ein kleiner Klassifikator (einige tausend Parameter genügen) entscheidet, ob das Bild ein Foto, ein Diagramm, ein Screenshot oder dekorativ ist. Die Routing-Entscheidung bestimmt den Prompt, das Modell und ob überhaupt generiert wird. Dekorative Bilder sollten nicht an das Modell gesendet werden: Sie sollten direkt als dekorativ markiert werden und mit einem leeren Alt ausgeliefert werden.

2

Claude 3.7 Sonnet für Diagramme und Screenshots verwenden

Die Matrix zeigt, dass Claude bei den zwei Spalten führt, bei denen Verweigerung das korrekte Verhalten ist. Der Prompt wird so konfiguriert, dass explizite Verweigerung verlangt wird, wenn Text nicht lesbar ist, und dass jedes Diagramm, dessen Achsenwerte nicht lesbar sind, markiert wird — statt zu raten. Die Verweigerung wird im CMS als Zustand „erfordert menschliche Beschreibung“ angezeigt, nicht als leeres Alt.

3

GPT-4o oder Gemini 2.0 für Fotos verwenden, mit Markennamenbeschränkung

Für die Fotospalte erzielen beide Modelle Akzeptanzraten über ca. 65 %. Eine Prompt-seitige Anweisung ergänzen, die Markenidentifikation verbietet, sofern ein Logo oder Wortzeichen nicht eindeutig im Bild sichtbar ist. Ausgabelänge auf 125 Zeichen begrenzen, um das weitschweifige Dreiteil-Satzmuster zu vermeiden.

4

Menschliche Bearbeitungsrunde vor der Veröffentlichung

Jeder KI-Kandidat ist ein Entwurf. Der CMS-Button schreibt den Kandidaten in ein Prüffeld, nicht in das Alt-Attribut. Die Redakteurin akzeptiert, bearbeitet oder ersetzt durch eigenen Text. Für Nachrichtenkontexte, Barrierefreiheitskontexte oder alles, bei dem eine falsche Identifikation einer Person mit Behinderung schädlich wäre, ist der Redaktionsschritt nicht verhandelbar.

5

Audit nach Plan

Quartalsweise eine Stichprobe veröffentlichter Alternativtexte gegen die Matrix prüfen. Modelle driften; Anbieter-Builds ändern sich; die Fehlermodi verschieben sich. Eine 100-Bilder-Stichprobe erfordert einen Nachmittag und erkennt Verhaltensregressionen, bevor eine Screenreader-Nutzerin dies tut.

Was „Automatisierung“ bedeuten sollte und was nicht

Eine KI-Alternativtext-Funktion, die direkt in das Alt-Attribut ohne menschliche Prüfung schreibt, ist kein Barrierefreiheits-Feature — sie ist eine Barrierefreiheitserklärung. WCAG-Konformität setzt weiterhin voraus, dass die Textalternative korrekt, kontextuell und nicht erfunden ist. Das Modell kann entwerfen; nur die Redaktion kann ausliefern.


Fazit: Die Latte wurde angehoben, der Boden nicht

Die Kernaussage dieses Primers, ehrlich formuliert, lautet: Vision-Sprachmodelle sind 2026 ein nützlicher Erstentwurf für die Fotospalte und eine nützliche Verweigerungsquelle für die Diagrammspalte — und beide Tatsachen zusammen legen einen hybriden Workflow nahe, keinen vollständig automatisierten. Die Latte wurde zwischen 2022 und 2026 deutlich angehoben — Akzeptanzraten bei informativen Fotos liegen bei den besten geschlossenen Modellen jetzt im hohen Sechzigerbereich, wo sie 2022 noch im unteren Dreißigerbereich lagen. Der Boden wurde nicht angehoben. Mobilitätshilfen werden weiterhin falsch identifiziert, Gebärdensprache wird weiterhin zu „Gestikulieren“, und dekorative Bilder erhalten weiterhin einen Satz, wenn sie Schweigen benötigen.

Die Konsequenz für die Barrierefreiheit ist, dass der richtige Standard für jedes CMS, das 2026 einen „Auto-Alternativtext“-Button ausliefert, nicht „Button drücken und veröffentlichen“ lautet. Er lautet: „Button zum Entwerfen drücken, dann vor der Veröffentlichung prüfen.“ Alles, was enger ist, liefert erfundene Details an die Nutzerinnen und Nutzer, die am direktesten auf die korrekte Textalternative angewiesen sind. Alles, was weiter ist — KI ganz ignorieren — lässt die 41 % Bilder mit leerem Alt unbearbeitet, obwohl ein Entwurf geholfen hätte.

Diese Matrix wird im November 2026 erneut durchgeführt. Hat sich die Diagrammspalte über die 60-%-Akzeptanzlinie bewegt, wird der hybride Workflow gestrafft. Bis dahin gilt: Das Modell entwirft, die Redaktion liefert aus.

„Das Modell kann entwerfen; nur die Redaktion kann ausliefern.“

— dieser Artikel, hybrider Workflow Schritt 4