Sous-titres
Voir aussi : closed captions, open captions, CC
Représentation textuelle de tout l'audio significatif d'une vidéo — dialogues, identification des locuteurs, effets sonores et indications musicales. WCAG 1.2.2 exige des sous-titres pour les vidéos préenregistrées. À distinguer des sous-titres de traduction.
Les sous-titres sont une représentation textuelle de tout le contenu audio significatif d’une vidéo — incluant les dialogues, l’identification des locuteurs, les effets sonores et les indications musicales. Ils sont destinés aux spectateurs sourds et malentendants ; ils sont aussi largement utilisés par des spectateurs entendants dans des environnements bruyants, par des utilisateurs apprenant la langue parlée, et par des spectateurs autistes qui traitent le texte plus rapidement que l’audio.
Sous-titres pour sourds vs sous-titres de traduction
Ces deux termes sont constamment confondus. La distinction opérationnelle :
- Les sous-titres pour sourds et malentendants s’adressent aux spectateurs sourds et malentendants. Ils retranscrivent tout l’audio : les dialogues, plus les indications de locuteur (« [NARRATEUR] : »), plus les effets sonores (« [la porte claque] »), plus les indications musicales (« [musique angoissante] »). Ils sont dans la même langue que l’audio original.
- Les sous-titres de traduction s’adressent aux spectateurs entendants d’une autre langue. Ils retranscrivent uniquement les dialogues (sans effets sonores ni indications musicales), dans une langue différente de l’audio original.
Les services de streaming ont brouillé cette distinction en regroupant tout sous l’étiquette « sous-titres » ou « CC ». Pour l’accessibilité, ce qui compte, c’est de savoir si le contenu textuel est de type sous-titres pour sourds (inclut tout l’audio significatif) ou de type sous-titres de traduction (dialogue uniquement).
Sous-titres fermés vs sous-titres ouverts
- Les sous-titres fermés (closed captions) sont enregistrés dans une piste textuelle séparée que l’utilisateur peut activer ou désactiver. C’est le standard pour la vidéo web (fichiers WebVTT) et pour la télévision numérique (CEA-708).
- Les sous-titres ouverts (open captions) sont incrustés directement dans les pixels de la vidéo et ne peuvent pas être désactivés. Ils sont utilisés lorsqu’aucune piste de sous-titrage séparée n’est supportée (certaines plateformes de réseaux sociaux, certains contextes hérités).
WCAG accepte les deux ; les sous-titres fermés sont préférables opérationnellement car ils laissent la vidéo originale intacte.
Ce qu’exige WCAG
- 1.2.2 Sous-titres (préenregistrés) — Niveau AA — sous-titres pour tout audio préenregistré dans un média synchronisé.
- 1.2.4 Sous-titres (en direct) — Niveau AA — sous-titres en direct pour le contenu audio en direct.
- 1.2.6 Langue des signes (préenregistrée) — Niveau AAA — interprétation en langue des signes en complément des sous-titres.
WCAG exclut spécifiquement les « alternatives médias pour le texte » (une vidéo qui n’existe que comme alternative visuelle à un article textuel) de cette exigence, mais ces cas sont rares.
Ce qui se passe mal en production
- Sous-titres générés automatiquement livrés sans correction. YouTube et la plupart des plateformes vidéo génèrent des sous-titres automatiquement. La précision sur les accents, le vocabulaire technique ou le bruit de fond est faible — généralement 85 à 95 % de précision des mots. En deçà de 99 %, les sous-titres ne satisfont pas au standard légal. Les sous-titres générés automatiquement sont un point de départ, pas un produit fini.
- Absence d’identification des locuteurs. Un dialogue entre deux personnes sans indication : les spectateurs sourds ne peuvent pas savoir qui dit quoi.
- Absence d’indications d’effets sonores. L’intrigue repose sur un son que le spectateur sourd n’a aucun moyen de savoir qu’il s’est produit.
- Mauvaise synchronisation. Des sous-titres apparaissant deux secondes après le dialogue, ou restant à l’écran après que le locuteur est passé à autre chose. La précision du timing compte.
- Sous-titres à faible contraste. Texte blanc sur une vidéo lumineuse sans fond ni ombre. Pratiquement invisible.
Le niveau de qualité minimal est celui des sous-titres au standard de la diffusion télévisuelle : précision des mots supérieure à 99 %, synchronisés à ±50 ms près, avec identification complète des locuteurs et indications sonores.