Napisy rozszerzone — słownik dostępności

Napisy rozszerzone to tekstowa reprezentacja całej znaczącej treści audio w wideo — obejmująca dialogi, identyfikację mówiących, efekty dźwiękowe i sygnały muzyczne. Napisy rozszerzone istnieją z myślą o widzach głuchych i niedosłyszących; są też powszechnie używane przez słyszących widzów w głośnych środowiskach, przez osoby uczące się języka mówionego oraz przez widzów z autyzmem, którzy przetwarzają tekst szybciej niż mowę.

Napisy rozszerzone a zwykłe napisy

Te dwa terminy są stale mylone. Operacyjna różnica:

Napisy rozszerzone przeznaczone są dla widzów głuchych i niedosłyszących. Transkrybują całą ścieżkę audio: dialogi oraz oznaczenia mówiących („[NARRATOR]:”), oraz efekty dźwiękowe („[trzaśnięcie drzwiami]”), oraz sygnały muzyczne („[muzyka napięcia]”). Są w tym samym języku co oryginalna ścieżka audio.
Zwykłe napisy przeznaczone są dla słyszących użytkowników innego języka. Transkrybują tylko dialogi (bez efektów dźwiękowych, bez sygnałów muzycznych), w języku różnym od oryginału.

Serwisy streamingowe zacierają tę różnicę, stosując określenie „napisy” lub „CC” bez rozróżnienia. Dla dostępności istotne jest, czy treść tekstowa ma charakter napisów rozszerzonych (obejmuje całą znaczącą ścieżkę audio), czy zwykłych napisów (tylko tłumaczenie dialogów).

Napisy zamknięte a otwarte

Napisy zamknięte są przechowywane jako oddzielna ścieżka tekstowa, którą użytkownik może włączyć lub wyłączyć. Standard dla wideo w sieci (pliki WebVTT); standard dla telewizji (CEA-708).
Napisy otwarte są wypalone bezpośrednio w pikselach wideo i nie można ich wyłączyć. Stosowane, gdy osobna ścieżka napisów nie jest obsługiwana (niektóre platformy mediów społecznościowych, niektóre starsze konteksty).

WCAG akceptuje oba rodzaje; napisy zamknięte są operacyjnie preferowane, ponieważ nie modyfikują oryginalnego wideo.

Wymagania WCAG

1.2.2 Napisy rozszerzone (nagranie) — poziom AA — napisy rozszerzone dla wszystkich nagranych treści audio w zsynchronizowanych mediach.
1.2.4 Napisy rozszerzone (na żywo) — poziom AA — napisy na żywo dla transmitowanych treści audio.
1.2.6 Język migowy (nagranie) — poziom AAA — tłumaczenie na język migowy dodatkowo do napisów rozszerzonych.

WCAG wyłącza z tego wymogu „alternatywy medialne dla tekstu” (wideo istniejące jedynie jako wizualna alternatywa dla artykułu tekstowego), ale takie przypadki są rzadkie.

Typowe błędy produkcyjne

Automatycznie wygenerowane napisy bez korekty. YouTube i większość platform wideo generuje napisy automatycznie. Dokładność dla akcentowanej mowy, słownictwa technicznego lub hałasu w tle jest niska — zazwyczaj 85–95% poprawności słów. Poniżej 99% napisy nie spełniają wymogu prawnego. Automatycznie wygenerowane napisy to punkt wyjścia, nie produkt gotowy do publikacji.
Brak identyfikacji mówiących. Dialog dwóch osób bez oznaczeń: głusi widzowie nie mogą ustalić, kto mówi.
Brak sygnałów efektów dźwiękowych. Fabuła zależy od dźwięku, o którym głuchy widz nie ma możliwości wiedzieć.
Złe synchronizowanie. Napisy pojawiające się na ekranie 2 sekundy po dialogu lub pozostające widoczne po tym, jak mówiący skończył. Precyzja czasowa ma znaczenie.
Napisy o niskim kontraście. Biały tekst na jasnym wideo bez tła lub cienia. Praktycznie niewidoczne.

Minimalna jakość to napisy na poziomie standardu nadawczego: dokładność słów ≥ 99%, synchronizacja w zakresie ±50 ms, z pełną identyfikacją mówiących i sygnałami dźwiękowymi.