Audiodeskription — Barrierefreiheits-Glossar

Audiodeskription ist eine gesprochene Spur, die den visuellen Inhalt eines Videos für Nutzende beschreibt, die es nicht sehen können: Szenenwechsel, Handlungen der Figuren, Mimik, eingeblendeter Text. Sie wird in natürlichen Dialogpausen eingesprochen — entweder von einer professionellen Sprechkraft oder durch synthetisierte Sprache.

Audiodeskription verhält sich zu Untertiteln spiegelbildlich: Untertitel transkribieren Audio für Zuschauende, die nicht hören können; Audiodeskription beschreibt das Bild für Zuschauende, die nicht sehen können.

Was WCAG vorschreibt

Zwei Erfolgskriterien befassen sich spezifisch mit Audiodeskription:

1.2.3 Audiodeskription oder Medienalternative (voraufgezeichnet) — Stufe A — voraufgezeichnetes Video muss entweder Audiodeskription ODER eine vollständige Textalternative enthalten.
1.2.5 Audiodeskription (voraufgezeichnet) — Stufe AA — Audiodeskription ist für alle voraufgezeichneten Videos vorgeschrieben.
1.2.7 Erweiterte Audiodeskription (voraufgezeichnet) — Stufe AAA — Sind die Pausen im Originalaudio für eine angemessene Beschreibung nicht ausreichend, kann das Video programmatisch angehalten werden, um längere Beschreibungssegmente einzufügen.

Das AA-Kriterium ist die praktische Mindestanforderung; die meisten Rechtsordnungen, die auf WCAG verweisen, schließen 1.2.5 ein.

Standard- vs. erweiterte Audiodeskription

Standard-Audiodeskription nutzt die natürlichen Dialogpausen. Sie funktioniert gut für dialoggetriebene Inhalte mit natürlichen Stille-Momenten. Bei schnellen, dialogdichten Inhalten, die keine Pausen bieten, stößt sie an ihre Grenzen.
Erweiterte Audiodeskription hält das Video an, um längere Beschreibungssegmente einzufügen. Dies verlängert die Gesamtlaufzeit erheblich und ist im kommerziellen Bereich weniger verbreitet.

Der Großteil professioneller Audiodeskription folgt dem Standardverfahren.

Wie Audiodeskription produziert wird

Skripterstellung. Eine ausgebildete Beschreibungsperson — oft dieselbe Rolle wie Untertitelautor in Unternehmen, die beides anbieten — sieht sich das Programm an und verfasst die Narration zum visuellen Inhalt. Die Kunst liegt darin, angesichts begrenzter Zeit auszuwählen, was beschrieben werden muss, um wesentliche Informationen zu vermitteln, ohne zu werten.
Aufnahme. Eine Sprechkraft spricht den Text ein, oder — zunehmend — eine Text-zu-Sprache-Engine synthetisiert die Narration aus dem Skript.
Mischung. Die Beschreibung wird in die Audiospur eingemischt, ohne den Originaldialog zu überlagern.
Ausgabe. Als separate Audiospur im Videoplayer (über ein Steuerelement mit der Bezeichnung „AD“ o. Ä. abrufbar) oder als „open-described“-Inhalt, bei dem die Beschreibung dauerhaft eingeschaltet ist.

Häufige Fehler in der Produktion

Keine Audiodeskription. Dies ist der häufigste Fehler. Viele Seiten, die konsequent Untertitel liefern, lassen Audiodeskription weg, weil sie als komplexer wahrgenommen wird. WCAG AA schreibt beides für voraufgezeichnetes Video vor.
Beschreibung nur über Stille. Eine Szene mit durchgehender Musik oder Umgebungsgeräuschen bietet keine echte „Pause“ — die beschreibende Person muss entweder über die Musik sprechen (weniger ideal) oder das Video anhalten (erweiterte Beschreibung).
Überflüssige Beschreibung dekorativer Inhalte. Füllszenen (lange Establishing-Shots, Cutaways) brauchen keine Narration, die nur aufzählt, was auf dem Bild zu sehen ist. Nützliche Beschreibung vermittelt narrativ relevante Informationen.

Wann der AAA-Schwellenwert relevant wird

Bei Inhalten mit sehr dichtem Dialog — Gerichtsverhandlungen, schnell gesprochene Dokumentarfilme, Interview-Formate — reicht Standard- Audiodeskription oft nicht aus. Erweiterte Audiodeskription auf AAA-Niveau mit programmatischem Anhalten ist dann der einzige Weg, ausreichend visuellen Kontext zu vermitteln. Einige Streaming-Plattformen unterstützen dies inzwischen nativ; viele nicht, sodass das Video vorab mit eingearbeiteter erweiterter Audiodeskription erstellt werden muss.