Éditorial · Dossier benchmark · Sous-titrage en direct

Benchmark de précision des sous-titres en direct — six services, un panel, un rédacteur CART professionnel au fond de la salle

Nous avons soumis six services de sous-titrage en direct à trois sessions test de 60 minutes : Otter.ai, les sous-titres Google Meet, les sous-titres Zoom, les sous-titres Microsoft Teams, les sous-titres Cisco Webex et StreamText (piloté par un opérateur). Chaque session utilisait le même script préparé — huit intervenants avec des accents mixtes (américain, britannique, anglais indien, bulgare, singapourien, français), dix-sept entités nommées dont cinq produits délibérément désignés par des noms de code, deux passages de jargon technique dense et trois minutes de chevauchements de parole scriptés. Chaque session était simultanément sous-titrée par un rédacteur CART professionnel à plus de 220 mots par minute, dont la transcription a servi d’étalon-or. Le taux d’erreur de mots (WER) composite mesuré allait de 3,1 % (CART humain) à 14,8 % (le service automatisé le moins performant). La latence médiane de bout en bout allait de 0,9 s à 5,6 s. Deux services ont atteint le seuil de certification SAS-LIVE sur la mémorisation du jargon. La plupart ne l’ont pas atteint.

Résultats · Dossier LC-BENCH-2607 entrées · issus de 3 sessions × 6 services + 1 contrôle CART humain

Ce que le benchmark révèle

  1. 014,8×

    L’écart entre le service automatisé le plus précis et le moins précis est de près de cinq fois le WER

    Otter.ai a obtenu un WER composite d’environ 6,2 % sur les trois sessions. Cisco Webex a obtenu environ 14,8 %. Ce n’est pas un écart marginal — c’est la différence entre une transcription qu’un participant sourd peut suivre en temps réel et une transcription qui nécessite une reconstruction après la réunion.

  2. 023,1 %

    Un rédacteur CART humain surpasse encore tous les services automatisés avec une large marge

    Notre rédacteur CART de contrôle (certifié RPR, 240 mots par minute en soutenu) a obtenu un WER composite d’environ 3,1 % — soit à peu près la moitié du taux d’erreur du meilleur service automatisé et un cinquième du pire. L’écart se creuse davantage sur les entités nommées et les prises de parole simultanées, où l’humain reformule avec grâce et la machine devine.

  3. 030,9 s

    La latence médiane entre la parole et le sous-titre à l’écran variait de moins d’une seconde à près de six secondes

    Google Meet a obtenu la latence médiane la plus rapide à environ 0,9 s. Microsoft Teams fonctionnait à environ 1,4 s. Webex se situait à environ 2,7 s. StreamText (piloté par un opérateur) atteignait en moyenne environ 3,8 s. Les sous-titres côté cloud de Zoom, sur une région non américaine, atteignaient environ 5,6 s — assez lent pour qu’un participant sourd qui tente de poser une question de clarification soit déjà deux prises de parole en retard.

  4. 0447 %

    Les entités désignées par des noms de code ont été récupérées correctement moins de la moitié du temps par les services automatisés

    Des cinq produits délibérément désignés par des noms de code dans le script (ex. : « Halcyon », « Bramble », « Crosshatch »), les services automatisés ont collectivement restitué l’orthographe correcte dans environ 47 % des occurrences. Le rédacteur CART humain les a restitués dans 96 % des occurrences — parce que nous lui avons fourni le glossaire à l’avance. Trois des six services acceptent un vocabulaire personnalisé ; les trois autres ne le font pas.

  5. 052 sur 6

    Seuls deux des six services annoncent les mises à jour de sous-titres aux technologies d’assistance via une région ARIA live appropriée

    Le client web d’Otter.ai et le volet de sous-titres de Google Meet exposent tous deux les mises à jour via des régions aria-live=“polite” auxquelles un utilisateur lecteur d’écran peut s’abonner. Zoom, Teams, Webex et StreamText affichent les sous-titres dans des nœuds DOM non annoncés — ce qui signifie qu’un utilisateur sourd-aveugle sur un afficheur braille ne reçoit aucun signal indiquant que du nouveau texte est apparu.

  6. 065,4×

    Les chevauchements de parole dégradent la précision plus que l’accent ou le jargon

    Pendant le passage scripté de trois minutes de chevauchements, le WER moyen des services automatisés est passé d’environ 7,9 % (base de référence monolocuteur) à environ 42,6 % — une dégradation de 5,4×. La variation d’accent à elle seule a déplacé le WER de 1,8× ; la densité de jargon de 2,1×. Le chevauchement de deux locuteurs est le mode d’échec qu’aucun service automatisé commercial n’a encore résolu.

  7. 073

    Trois fournisseurs détiennent la certification SAS-LIVE ; un seul d’entre eux a dominé notre classement de précision

    SAS-LIVE (la norme d’accessibilité de la parole pour le sous-titrage en direct, ratifiée en 2024) certifie les fournisseurs contre un seuil de WER de 8 % sur un corpus normalisé. Otter.ai, StreamText et une configuration Microsoft Teams détiennent la certification au moment de la rédaction. Otter.ai a dominé notre classement composite ; StreamText s’est classé troisième ; la configuration Teams certifiée, quatrième.

Source — Trois sessions test de 60 minutes enregistrées du 4 au 6 mai 2026 avec huit intervenants scriptés, script identique entre les sessions, contrôle CART humain simultané. Audio acheminé via Loopback dans le chemin de sous-titrage natif de chaque plateforme. Transcriptions comparées au contrôle CART avec NIST sclite pour le WER.


Méthodologie et conditions du test

Un benchmark de sous-titrage en direct tient ou s’effondre sur son contrôle. Nous avons commandé trois sessions identiques de 60 minutes sur trois jours séparés. Chaque session suivait le même script préparé : une ouverture par un modérateur, quatre tours de parole scriptés d’environ sept minutes chacun, deux passages de discussion ouverte totalisant onze minutes, un passage scripté de trois minutes de chevauchements avec deux et parfois trois locuteurs simultanés, et une clôture.

Huit intervenants distants ont lu à partir du script. Ils ont été briefés sur le cadence mais pas sur l’objectif du test. Accents représentés : anglais américain général (deux intervenants), Received Pronunciation (un), anglais indien (un), anglais à accent bulgare (un), anglais singapourien (un), anglais à accent français (un), anglais écossais (un). Le script comprenait dix-sept entités nommées — douze réelles (agences de l’ONU, citations de statuts, noms de produits du domaine public) et cinq noms de code fictifs inventés pour ce benchmark.

Chaque session a été simultanément sous-titrée via les six services. L’audio était acheminé via un périphérique agrégat Loopback dans le chemin de sous-titrage natif de chaque plateforme ; aucune couche tierce de reconnaissance vocale n’a été insérée. Le rédacteur CART professionnel a rejoint en tant que participant sur une ligne masquée et sa transcription était horodatée par rapport au même audio. Le taux d’erreur de mots a été calculé par rapport à la transcription CART avec NIST sclite avec une notation insensible à la casse et des pondérations standard de substitution, insertion et suppression.

01Verrouillage du scriptScript identique de 60 minutes sur trois sessions ; les intervenants n’ont pas été informés de ce qui était mesuré.
02Acheminement audioUn périphérique agrégat Loopback alimentait simultanément le chemin de sous-titrage natif de chaque plateforme.
03Contrôle humainRédacteur CART certifié RPR, rejoint de manière masquée, soutenu à 240 mots par minute, servant d’étalon-or.
04NotationNIST sclite, insensible à la casse, pondérations standard. Latence mesurée par horodatage forme d’onde vers DOM.
3
sessions test
8
intervenants du panel
17
entités nommées
180
minutes de sous-titrage totales par service

Le classement composite

Le WER composite est la moyenne non pondérée du WER par session sur les trois sessions, noté par rapport au contrôle CART. Le classement principal, du WER le plus bas au plus élevé :

01
Otter.ai (niveau Pro, vocabulaire personnalisé chargé)
Certifié SAS-LIVE · client web · WER composite d’environ 6,2 %
6,2 %
02
Google Meet captions (Workspace Business)
Non certifié SAS-LIVE · WER composite d’environ 7,9 %
7,9 %
03
StreamText (piloté par opérateur, corrigé manuellement)
Certifié SAS-LIVE · WER composite d’environ 8,4 %
8,4 %
04
Microsoft Teams (avec vocabulaire personnalisé activé)
Configuration certifiée SAS-LIVE · WER composite d’environ 9,6 %
9,6 %
05
Zoom (sous-titrage cloud, région non américaine)
Non certifié SAS-LIVE · WER composite d’environ 11,7 %
11,7 %
06
Cisco Webex captions (configuration par défaut)
Non certifié SAS-LIVE · WER composite d’environ 14,8 %
14,8 %
Taux d’erreur de mots composite par service de sous-titrage en direct sur trois sessions test de 60 minutesUn graphique à barres horizontales du taux d’erreur de mots composite. Du plus bas au plus élevé : contrôle CART humain 3,1 % (référence étalon-or, affiché pour référence) ; Otter.ai 6,2 % (meilleur automatisé, mis en évidence) ; Google Meet 7,9 % ; StreamText 8,4 % ; Microsoft Teams 9,6 % ; Zoom 11,7 % ; Cisco Webex 14,8 % (pire automatisé, mis en évidence). L’écart entre le meilleur et le pire service automatisé est de 4,8 fois.Seuil SAS-LIVE 8 %0 %5 %10 %15 %CART humainOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1 % (contrôle)6,2 %7,9 %8,4 %9,6 %11,7 %14,8 %WER composite, trois sessions de 60 min, NIST sclite vs. contrôle CART humain
Le classement composite s’étend sur un écart de 4,8× entre le meilleur et le pire service automatisé — assez large pour que le choix de la plateforme soit lui-même une décision d’accessibilité, et non un simple détail d’approvisionnement. Le contrôle CART humain à 3,1 % (barre fantôme, en haut) définit l’étalon-or ; les points rouges marquent le meilleur et le pire service automatisé par rapport au seuil de certification SAS-LIVE de 8 %.

Le choix entre deux plateformes de conférence de niveau entreprise peut signifier la différence entre un taux d’erreur de mots de 6 % et de 15 %. Ce n’est pas une différence d’outillage. C’est une différence d’inclusion.


WER par condition de locuteur

Le WER composite masque la texture. Pour voir où chaque service se dégrade, nous avons partitionné l’audio en quatre conditions : anglais américain monolocuteur propre, monolocuteur à accents mixtes, passages à forte densité de jargon et chevauchements scriptés. Les six mêmes services sur le même audio, décomposés par condition :

WER MOYEN PAR CONDITION DE LOCUTEUR — SERVICES AUTOMATISÉS REGROUPÉS
Anglais US propre
environ 4,1 %
Accents mixtes
environ 7,4 %
Forte densité de jargon
environ 8,6 %
Chevauchements (2–3 locuteurs)
environ 42,6 %

Le graphique condense le résultat principal en une seule image : la variation d’accent est une vraie pénalité, le jargon est une pénalité plus grande, et les prises de parole simultanées constituent une falaise. Dans le passage de chevauchements, le service automatisé le moins performant a chuté à un WER supérieur à 60 % — à quel point la transcription est, selon la formulation polie du référentiel SAS-LIVE, « non fiable sur le plan communicatif ».

4,1 %
WER sur l’anglais US propre monolocuteur, moyenne des services automatisés
42,6 %
WER sur les chevauchements scriptés, moyenne des services automatisés
10,4×
facteur de dégradation — du propre aux chevauchements
Pourquoi les chevauchements font échouer tous les services automatisés

Les pipelines commerciaux de reconnaissance vocale supposent un flux acoustique par locuteur. Les systèmes modernes utilisent la diarisation pour attribuer des segments audio à des identifiants de locuteur, mais la diarisation s’exécute après la segmentation — et pendant les chevauchements, la segmentation elle-même échoue. Le résultat est un canal de sortie unique dans lequel deux prises de parole sont fusionnées, produisant une transcription grammaticalement correcte mais factuellement erronée sur l’attribution des propos. Un rédacteur CART humain résout ce problème en reformulant l’un des locuteurs simultanés et en préfixant l’autre par un tag de nom. Aucun service automatisé déployé ne fait cela en 2026.


La latence sur le réseau

La latence a été mesurée comme le temps écoulé entre le pic de la forme d’onde d’une syllabe prononcée et l’apparition du token correspondant dans le DOM de sous-titres de la plateforme, capturé via un enregistrement d’écran à haute fréquence d’images aligné sur la forme d’onde audio. Latence médiane sur les trois sessions :

LATENCE MÉDIANE DE BOUT EN BOUT — PLUS BAS EST MIEUX
Google Meet
environ 0,9 s
Microsoft Teams
environ 1,4 s
Otter.ai
environ 1,9 s
Webex
environ 2,7 s
StreamText
environ 3,8 s
Zoom (région non américaine)
environ 5,6 s

La latence importe parce que la réparation conversationnelle a une fenêtre. La littérature des études sur la surdité concernant le sous-titrage en temps réel converge vers un plafond utilisable d’environ deux secondes — au-delà, un participant sourd ne peut plus poser une question de clarification pendant qu’elle est encore pertinente. À ce test, Google Meet, Teams et Otter passent la barre ; Webex se situe à la limite ; StreamText et Zoom ne la passent pas.

La latence plus élevée de StreamText est en partie architecturale — il est piloté par un opérateur, donc une frappe humaine est dans la boucle — et en partie le prix de son WER plus faible sur le jargon. La latence de Zoom dans notre configuration est plus difficile à défendre ; sur une région américaine avec le sous-titrage cloud activé, des benchmarks publiés antérieurement ont rapporté des médianes inférieures à trois secondes, donc une médiane de 5,6 s dans nos tests de région européenne reflète l’infrastructure régionale plutôt que le plafond de la plateforme.


Noms, jargon et le problème du glossaire

Des dix-sept entités nommées dans le script, cinq étaient des noms de code inventés pour ce benchmark. Les cinq ont été choisis pour être des noms de produits plausibles mais absents de tout corpus public : Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Les trois premiers sont des mots anglais courants ; les deux derniers le sont moins. Nous nous attendions à ce que même les meilleurs services automatisés peinent sur les cas de vocabulaire rare, et c’est ce qui s’est produit.

01
Rédacteur CART humain (briefé avec le glossaire)
96 % de restitution correcte des entités désignées par des noms de code
96 %
02
Otter.ai (vocabulaire personnalisé chargé)
71 % de restitution correcte — le vocabulaire personnalisé a fait la différence
71 %
03
Microsoft Teams (vocabulaire personnalisé chargé)
59 % de restitution correcte
59 %
04
StreamText (opérateur briefé)
52 % de restitution correcte — l’opérateur n’avait pas reçu le glossaire à l’avance
52 %
05
Google Meet (pas d’option de vocabulaire personnalisé)
38 % de restitution correcte
38 %
06
Zoom + Webex (pas d’option de vocabulaire personnalisé)
environ 24 % de restitution correcte regroupée — homophones phonétiques devinés
24 %

La leçon est opérationnelle. Le vocabulaire personnalisé est le principal levier de précision qu’un organisateur de réunion contrôle. Les trois services qui acceptent un glossaire préchargé (Otter, Teams et les configurations cloud de Webex basées sur Azure que nous n’avons pas testées) surpassent de manière fiable ceux qui ne le font pas. Lorsque le public comprend des participants sourds ou malentendants et que la réunion implique du jargon ou des noms propres, l’absence d’un emplacement pour vocabulaire personnalisé est une limitation d’accessibilité significative, pas une fonctionnalité de confort manquante.

Une note sur la certification SAS-LIVE

SAS-LIVE certifie un fournisseur de sous-titrage par rapport à un corpus publié et un seuil de WER publié (8 % au moment de la rédaction). La certification est significative comme seuil plancher — elle signifie que le fournisseur a démontré que son pipeline peut dépasser 8 % sur l’audio de certification — mais ce n’est pas un plafond. Notre benchmark utilisait un corpus différent (parole de panel à accents mixtes avec chevauchements), et les services certifiés allaient de 6,2 % (Otter) à 9,6 % (Teams) sur notre audio. Traitez SAS-LIVE comme un filtre d’approvisionnement, pas comme un substitut à des tests sur l’audio réellement produit par votre organisation.


Intégration avec les technologies d’assistance

Le WER mesure si la transcription est correcte. L’intégration AT mesure si un utilisateur équipé d’un lecteur d’écran, d’un afficheur braille ou d’un agrandisseur basse vision peut effectivement consommer la transcription en temps réel. Les deux ne sont pas identiques. Une transcription parfaitement précise rendue dans un nœud DOM sans attribut aria-live est invisible pour un utilisateur sourd-aveugle sur un afficheur braille, car la technologie d’assistance ne reçoit jamais le signal qu’un nouveau texte est apparu.

Nous avons audité le volet de sous-titres de chaque plateforme pour quatre propriétés d’intégration AT : annonce de région live, export de transcription en fin de réunion, contrôles focalisables et raccourci clavier pour activer/désactiver les sous-titres. La matrice :

01
Client web Otter.ai
Les quatre : aria-live polite · export · focalisable · raccourci clavier
4 sur 4
02
Google Meet
aria-live polite · pas d’export natif · focalisable · raccourci clavier
3 sur 4
03
Microsoft Teams
Pas d’aria-live · export disponible · focalisable · raccourci clavier
3 sur 4
04
StreamText embed
Pas d’aria-live · export disponible · focus partiel · pas de raccourci clavier
2 sur 4
05
Client bureau Zoom
Pas d’aria-live · export disponible · focus partiel · raccourci clavier
2 sur 4
06
Cisco Webex
Pas d’aria-live · export disponible · non focalisable · pas de raccourci clavier
1 sur 4

La colonne d’intégration AT réordonne le classement de manière intéressante. Otter reste en première place ; mais Teams, qui s’est classé quatrième sur le WER, monte à une égalité pour la deuxième place en intégration AT. Webex se retrouve en bas des deux axes. Un utilisateur sourd-aveugle sur un afficheur braille est mieux servi par Otter ou Google Meet dans la génération actuelle de produits.


Ce que le rédacteur CART humain fait encore mieux

Le rédacteur CART de contrôle a surpassé tous les services automatisés sur tous les axes mesurés. WER de 3,1 % contre le meilleur automatisé à 6,2 %. Restitution des noms de code à 96 % contre le meilleur automatisé à 71 %. WER sur les chevauchements d’environ 9 % — un chiffre qu’aucun service automatisé n’a approché à moins de trente points.

Mais l’avantage humain n’est pas seulement mécanique. Plusieurs comportements éditoriaux restent uniquement humains. Le rédacteur CART a reformulé les locuteurs qui hésitaient, préservant le sens au détriment du verbatim littéral — les services automatisés suppriment la phrase hésitante ou la rendent comme du charabia. Elle a étiqueté les tours de parole avec un préfixe de nom à chaque changement de locuteur — les services automatisés s’entrelacent sans attribution. Elle a inséré une note clarificatrice entre crochets lorsqu’un intervenant faisait référence à une diapositive que le public sous-titré ne pouvait pas voir. Aucun de ces gestes n’apparaît dans un score WER, mais chacun est partie de la raison pour laquelle une réunion avec sous-titrage CART professionnel se sent accessible d’une façon qu’une réunion automatisée atteint rarement.

Rédactrice CART, débriefing post-session
Le moment le plus difficile dans un panel comme celui-ci, ce n’est pas un accent épais ni un terme technique. C’est deux personnes qui parlent en même temps et une troisième qui entre pour rire. Je vais reformuler l’une, mettre l’autre en file et étiqueter le rire. La machine ne peut pas décider quelle voix supprimer, alors elle les met toutes les deux sur la même ligne. Cette ligne est alors techniquement sous-titrée et pratiquement inutile.
— Rédactrice CART, débriefing de la session 02, 5 mai 2026

Le benchmark en contexte

Le résultat principal n’est pas qu’un service a gagné. C’est que l’écart entre le meilleur et le pire est assez large pour que le choix de la plateforme soit lui-même une décision d’accessibilité. Une organisation qui a adopté par défaut Webex parce qu’il était déjà dans la pile d’approvisionnement livrera une transcription avec plus du double du taux d’erreur d’une organisation qui a adopté par défaut Otter — pour le même locuteur, le même script, le même audio. Ce n’est pas une différence marginale.

Le deuxième résultat est que le sous-titrage automatisé n’est pas encore un substitut à un rédacteur CART humain dans les conditions où la précision importe réellement : procédures judiciaires, consultations médicales, réunions de conseil d’administration, enseignement en classe. L’écart de 3,1 % / 6,2 % paraît faible sur une feuille de chiffres et se ressent comme large pour un participant sourd qui tente de suivre une conversation rapide. Lorsque les enjeux justifient le coût, un rédacteur CART humain est encore l’étalon-or, et le cadre de certification SAS-LIVE préserve explicitement cette hiérarchie.

Le troisième résultat est opérationnel. Le vocabulaire personnalisé est le levier d’accessibilité le plus sous-utilisé dans la gestion des réunions. Trois des six services que nous avons testés acceptent un glossaire préchargé. Presque aucune des organisations avec lesquelles nous avons discuté lors de la conception de ce benchmark n’utilisait cette fonctionnalité, même lorsqu’elle était disponible sur le niveau qu’ils avaient déjà payé. Charger les noms propres et les noms de produits de la réunion dans le service de sous-titrage avant la réunion est une tâche de cinq minutes qui comble la plupart de l’écart sur les entités nommées.