SC 1.2.1 Niveau A WCAG 2.0

Contenu audio seul et vidéo seule (préenregistré)

Le contenu audio préenregistré doit être accompagné d'une transcription textuelle. La vidéo préenregistrée sans son doit proposer soit une description textuelle, soit une piste audio qui transmet les mêmes informations — afin que les utilisateurs qui ne peuvent ni entendre ni voir accèdent au contenu.

Ce que le critère exige

Deux types de médias à canal unique sont concernés. Les fichiers audio seuls (podcasts, interviews enregistrées, extraits MP3) doivent être accompagnés d’une transcription textuelle. Les fichiers vidéo seuls (démonstrations produit sans son, GIF animés porteurs d’information, clips en langue des signes, vidéos explicatives sans audio) doivent proposer soit un texte alternatif, soit une piste audio synchronisée qui transmet les mêmes informations. L’objectif : qu’un utilisateur sourd accède au podcast, et qu’un utilisateur aveugle accède à la démonstration silencieuse.

Comment satisfaire ce critère

Publier une transcription textuelle complète directement sous le lecteur audio, et non uniquement derrière un lien de téléchargement.
Pour les vidéos sans son, rédiger une description textuelle qui reprend chaque action et chaque texte affiché à l’écran, placée sur la même page.
En alternative, ajouter une piste de narration audio à la vidéo silencieuse, décrivant ce qui se passe au fil du visionnage.
N’utiliser la transcription automatique que comme point de départ — les sorties de Whisper ou Otter doivent être corrigées pour l’exactitude et les étiquettes d’intervenants.
Structurer les titres de la transcription, les noms des intervenants et les horodatages avec du HTML sémantique (<h2>, <ol>, <time>), et non avec une série de balises <br>.
Pour les contenus audio sociaux intégrés (Twitter Spaces, notes vocales), fournir la transcription dans le texte de la page environnante.

Erreurs courantes

Pages d’épisodes de podcast contenant uniquement des notes d’émission — la conversation elle-même n’est jamais transcrite.
Transcription YouTube générée automatiquement à 80 % de précision, avec des noms propres déformés et des changements de locuteur absents.
GIF produit silencieux sans description nulle part sur la page, fréquent sur les pages marketing.
Transcriptions masquées derrière un « Cliquer pour développer » sans association programmatique au lecteur.
Interviews audio où un interlocuteur est identifié mais l’autre est désigné « Intervenant 2 » tout au long.

Pourquoi ce critère est important

Les transcriptions sont aussi le gain SEO le moins coûteux sur tout site à forte composante médias — les moteurs de recherche les indexent, les utilisateurs voyants les parcourent, et elles rendent le contenu accessible aux utilisateurs sourds en une seule action. L’absence de transcription est presque toujours un problème de processus, non un problème technique.