Untertitel — Barrierefreiheits-Glossar

Untertitel sind eine Textdarstellung aller bedeutsamen Audioinhalte in einem Video — einschließlich Dialogen, Sprecherkennzeichnung, Geräuschen und Musikhinweisen. Sie existieren für gehörlose und schwerhörige Zuschauerinnen und Zuschauer; sie werden aber auch von hörenden Personen in lauten Umgebungen, von Sprachlernenden und von autistischen Personen genutzt, die Text schneller verarbeiten als gesprochene Sprache.

Untertitel für Gehörlose vs. Übersetzungsuntertitel

Diese beiden Begriffe werden häufig verwechselt. Der entscheidende Unterschied:

Untertitel für Gehörlose (im Englischen: captions) richten sich an gehörlose und schwerhörige Zuschauerinnen und Zuschauer. Sie transkribieren alle Audioinhalte: Dialoge plus Sprecherkennzeichnungen („[ERZÄHLER]:“) plus Geräusche („[Tür schlägt zu]“) plus Musikhinweise („[dramatische Musik]“). Sie sind in der Originalsprache des Videos verfasst.
Übersetzungsuntertitel (im Englischen: subtitles) richten sich an hörende Personen einer anderen Sprache. Sie transkribieren nur Dialoge — keine Geräusche, keine Musikhinweise — in einer anderen Sprache als der Originalsprache.

Streaming-Dienste haben diese Unterscheidung verwischt, indem sie alles als „Untertitel“ oder „CC“ bezeichnen. Für die Barrierefreiheit entscheidend ist, ob der Textinhalt im Stil von Gehörlosenuntertiteln (alle bedeutsamen Audioinhalte) oder im Stil von Übersetzungsuntertiteln (nur Dialogübersetzung) gestaltet ist.

Offene vs. versteckte Untertitel

Versteckte Untertitel (Closed Captions) sind als separate Textspur gespeichert, die die Nutzenden ein- oder ausschalten können. Standard bei Webvideos (WebVTT-Dateien); Standard im Rundfunk (CEA-708).
Offene Untertitel (Open Captions) sind direkt in die Videopixel eingebrannt und können nicht deaktiviert werden. Sie kommen zum Einsatz, wenn keine separate Untertitelspur unterstützt wird (manche Social-Media-Plattformen, manche Legacy-Kontexte).

WCAG akzeptiert beide Varianten; versteckte Untertitel sind aus praktischer Sicht vorzuziehen, da das Originalvideo unverändert bleibt.

Was WCAG vorschreibt

1.2.2 Untertitel (aufgezeichnet) — Stufe AA — Untertitel für alle voraufgezeichneten Audioinhalte in synchronisierten Medien.
1.2.4 Untertitel (live) — Stufe AA — Live-Untertitel für live ausgestrahlte Audioinhalte.
1.2.6 Gebärdensprache (aufgezeichnet) — Stufe AAA — Gebärdensprachdolmetschung zusätzlich zu Untertiteln.

WCAG nimmt ausdrücklich „Mediaalternativen für Text“ aus — also Videos, die ausschließlich als visuelle Alternative zu einem Textartikel existieren — von der Anforderung aus. Solche Fälle sind jedoch selten.

Häufige Fehler in der Praxis

Automatisch generierte Untertitel werden unbearbeitet veröffentlicht. YouTube und die meisten Videoplattformen erzeugen Untertitel automatisch. Bei akzentbehafteter Sprache, Fachvokabular oder Hintergrundgeräuschen ist die Genauigkeit niedrig — typischerweise 85–95 % Wortgenauigkeit. Unter 99 % erfüllen Untertitel den rechtlichen Standard nicht. Automatisch generierte Untertitel sind ein Ausgangspunkt, kein fertiges Produkt.
Fehlende Sprecherkennzeichnung. Zweipersonendialog ohne Beschriftung: Gehörlose Personen können nicht erkennen, wer was sagt.
Keine Geräuschhinweise. Die Handlung dreht sich um ein Geräusch, von dem gehörlose Personen nichts erfahren.
Schlechtes Timing. Untertitel erscheinen 2 Sekunden nach dem Dialog oder bleiben stehen, nachdem die Sprecherin oder der Sprecher längst weitergemacht hat. Timingpräzision ist entscheidend.
Untertitel mit zu geringem Kontrast. Weißer Text auf hellem Video ohne Hintergrund oder Schatten. Faktisch unsichtbar.

Der Mindeststandard sind rundfunktaugliche Untertitel: über 99 % Wortgenauigkeit, auf ±50 ms genau getaktet, mit vollständiger Sprecherkennzeichnung und Geräuschhinweisen.