Undertexter — ordlista för tillgänglighet

Undertexter är en textrepresentation av allt meningsfullt ljudinnehåll i en video — inklusive dialog, talaridentifiering, ljudeffekter och musikmarkeringar. Undertexter finns till för döva och hörselnedsatta tittare; de används också flitigt av hörande tittare i bullriga miljöer, av användare som lär sig det talade språket och av autistiska tittare som bearbetar text snabbare än talat ljud.

Undertexter kontra översättningsundertexter

De här två begreppen sammanblandas ofta. Den avgörande skillnaden:

Undertexter (captions) är för döva och hörselnedsatta tittare. De transkriberar allt ljud: dialog, plus talarbeteckningar (“[BERÄTTARE]:”), plus ljudeffekter (“[dörren smäller]”), plus musikmarkeringar (“[spännande musik]”). De är på samma språk som originaljudet.
Översättningsundertexter (subtitles) är för hörande talare av ett annat språk. De transkriberar bara dialog (inga ljudeffekter, inga musikmarkeringar), på ett annat språk än originaljudet.

Streamingtjänster har grumslat detta genom att märka allt “undertexter” eller “CC” utan åtskillnad. För tillgänglighet är det avgörande om textinnehållet är undertextstil (inkluderar allt meningsfullt ljud) eller översättningsundertextstil (bara dialogöversättning).

Dolda kontra inbakade undertexter

Dolda undertexter (closed captions) lagras som ett separat textspår som användaren kan aktivera eller inaktivera. Standard för webbvideo (WebVTT-filer); standard för sändnings-TV (CEA-708).
Inbakade undertexter (open captions) är inbrända i videopixlarna och kan inte inaktiveras. Används när inget separat undertextspår stöds (vissa sociala medieplattformar, vissa äldre sammanhang).

WCAG godkänner båda; dolda undertexter är operativt att föredra eftersom de lämnar originalvideon opåverkad.

Vad WCAG kräver

1.2.2 Undertexter (förinspelad) — nivå AA — undertexter för allt förinspelat ljud i synkroniserat medium.
1.2.4 Undertexter (live) — nivå AA — liveundertexter för direktsänt ljudinnehåll.
1.2.6 Teckenspråk (förinspelat) — nivå AAA — teckenspråkstolkning utöver undertexter.

WCAG undantar specifikt “mediaalternativ för text” (en video som bara finns som ett visuellt alternativ till en textartikel) från kravet, men sådana fall är sällsynta.

Vad som går fel i praktiken

Automatgenererade undertexter levereras oredigerade. YouTube och de flesta videoplattformar genererar undertexter automatiskt. Noggrannheten för tal med accent, teknisk vokabulär eller bakgrundsljud är dålig — typiskt 85–95 % ordnoggrannhet. Under 99 % uppfyller inte undertexter den juridiska standarden. Automatgenererade undertexter är en startpunkt, inte en färdig produkt.
Saknad talaridentifiering. Dialog mellan två personer utan beteckningar: döva tittare kan inte avgöra vem som säger vad.
Inga ljudeffektsmarkeringar. Handlingen vänder på ett ljud som den döva tittaren inte har möjlighet att veta om.
Dålig timing. Undertexter som visas på skärmen 2 sekunder efter dialogen, eller som ligger kvar efter att talaren har gått vidare. Timingnoggrannhet är viktigt.
Lågkontrasta undertexter. Vit text på ljus video utan bakgrund eller skugga. Praktiskt taget osynlig.

Miniminivån är sändningsstandardens undertexter: 99 %+ ordnoggrannhet, tidsinställda med ±50 ms, med fullständig talaridentifiering och ljudmarkeringar.