Standards · WCAG 2.2

SC 1.2.1 Stufe A WCAG 2.0

Nur-Audio und Nur-Video (Aufgezeichnet)

Aufgezeichnete Nur-Audio-Inhalte benötigen ein Texttranskript. Aufgezeichnete stumme Videos benötigen entweder eine Textbeschreibung oder eine Audiospur, die dieselben Informationen vermittelt — damit Nutzende, die nicht hören oder nicht sehen können, dennoch Zugang zu den Inhalten haben.

Was gefordert wird

Es werden zwei einkanälige Medientypen abgedeckt. Nur-Audio-Dateien (Podcasts, aufgezeichnete Interviews, MP3-Clips) müssen über ein Texttranskript verfügen. Nur-Video-Dateien (stumme Produktdemonstrationen, informative animierte GIFs, Gebärdensprachaufnahmen ohne Ton, erklärende B-Roll-Sequenzen) müssen entweder eine Textalternative oder eine synchronisierte Audiospur haben, die dieselben Informationen vermittelt. Der Grundgedanke: gehörlose Nutzende erhalten Zugang zum Podcast, blinde Nutzende erhalten Zugang zur stummen Demonstration.

So wird die Anforderung erfüllt

  • Ein vollständiges Texttranskript direkt unterhalb des Audioplayers veröffentlichen — nicht ausschließlich hinter einem Download-Link.
  • Bei stummen Videos eine Textbeschreibung verfassen, die jede Handlung und jeden eingeblendeten Text erfasst, und diese auf derselben Seite bereitstellen.
  • Alternativ eine Audio-Kommentarspur zu stummen Videos hinzufügen, die das Geschehen zeitgleich beschreibt.
  • Maschinelle Transkription nur als Ausgangspunkt verwenden — die Ausgabe von Whisper, Otter und ähnlichen Werkzeugen muss auf Richtigkeit und Sprecherkennzeichnung hin geprüft und bearbeitet werden.
  • Transkript-Überschriften, Sprechernamen und Zeitstempel mit echter HTML-Struktur (<h2>, <ol>, <time>) auszeichnen — keine bloße Aneinanderreihung von <br>-Tags.
  • Für eingebettete Social-Media-Audioinhalte (Twitter Spaces, Sprachmemos) das Transkript im umgebenden Seitentext bereitstellen.

Häufige Fehler

  • Podcast-Episodenseiten mit ausschließlich Show-Notes — das eigentliche Gespräch wird nie transkribiert.
  • Automatisch generiertes YouTube-Transkript mit einer Genauigkeit von etwa 80 %, bei dem Eigennamen entstellt sind und Sprecherwechsel fehlen.
  • Stumme Produkt-GIFs ohne jegliche Beschreibung auf der Seite — auf Marketing-Seiten weit verbreitet.
  • Transkripte, die hinter „Zum Aufklappen klicken“ verborgen sind und keine programmatische Verknüpfung mit dem Player aufweisen.
  • Audio-Interviews, bei denen eine sprechende Person benannt ist, die andere aber durchgehend als „Sprecher 2“ erscheint.

Warum es wichtig ist

Transkripte sind zugleich der kostengünstigste SEO-Gewinn auf jeder medienlastigen Website — Suchmaschinen indexieren sie, sehende Nutzende überfliegen sie, und sie erschließen den Inhalt mit einem einzigen Schritt für gehörlose Nutzende. Das Fehlen von Transkripten ist fast immer ein Workflow-Problem, kein technisches.