Redactioneel · Benchmarkdossier · Live-ondertiteling

Nauwkeurigheidsbenchmark live-ondertiteling — zes diensten, één panel, één professionele CART-schrijver achterin de zaal

We hebben zes live-ondertitelingsdiensten getest in drie sessies van 60 minuten: Otter.ai, Google Meet-ondertiteling, Zoom-ondertiteling, Microsoft Teams-ondertiteling, Cisco Webex-ondertiteling en StreamText (operator-gestuurd). Elke sessie volgde hetzelfde voorbereide script — acht panelsprekers met gemengde accenten (Amerikaans, Brits, Indiaas Engels, Bulgaars, Singaporees, Frans), zeventien genoemde entiteiten waaronder vijf bewust met codenamen aangeduide producten, twee passages met dicht technisch jargon en drie minuten gescripte door-elkaar-heen-spraak. Elke sessie werd tegelijkertijd bijgehouden door een professionele CART-schrijver op 220+ WPM, wiens transcript als goudstandaard fungeerde. De gemeten samengestelde woordfoutratio (WER) varieerde van 3,1% (menselijke CART) tot 14,8% (de minst presterende geautomatiseerde dienst). De mediane end-to-end latentie varieerde van 0,9 s tot 5,6 s. Twee diensten haalden de SAS-LIVE-certificeringsvloer op jargonherinnering. De meeste niet.

Bevindingen · Zaakdossier LC-BENCH-2607 vermeldingen · afgeleid van 3 sessies × 6 diensten + 1 menselijke CART-controle

Wat de benchmark onthult

  1. 014,8×

    Het verschil tussen de meest nauwkeurige geautomatiseerde dienst en de minst nauwkeurige is bijna vijf keer de WER

    Otter.ai boekte een samengestelde WER van ca. 6,2% over de drie sessies. Cisco Webex boekte ca. 14,8%. Dat is geen marginaal verschil — dat is het onderscheid tussen een transcript dat een Doof deelnemer in realtime kan volgen en een transcript dat na de vergadering reconstructie vereist.

  2. 023,1%

    Een menselijke CART-schrijver presteert nog steeds beter dan elke geautomatiseerde dienst met ruime marge

    Onze controle-CART-schrijver (gecertificeerd RPR, 240 WPM aanhoudend) boekte een samengestelde WER van ca. 3,1% — ruwweg de helft van het foutpercentage van de beste geautomatiseerde dienst en een vijfde van het slechtste. Het verschil wordt groter bij genoemde entiteiten en overlappende spraak, waarbij de mens elegant parafraseert en de machine raadt.

  3. 030,9 s

    De mediane latentie tussen gesproken woord en ondertiteling op het scherm varieerde van onder één seconde tot bijna zes

    Google Meet boekte de snelste mediane latentie met ca. 0,9 s. Microsoft Teams liep op ca. 1,4 s. Webex zat op ca. 2,7 s. StreamText (operator-gestuurd) gemiddeld ca. 3,8 s. Zoom’s cloud-ondertiteling op een niet-VS-regio bereikte ca. 5,6 s — traag genoeg dat een Dove deelnemer die een verduidelijkende vraag probeert te stellen al twee uitingen achterloopt.

  4. 0447%

    Entiteiten met codenaam werden minder dan de helft van de tijd correct herkend door de geautomatiseerde diensten

    Van de vijf bewust met codenaam aangeduide producten in het script (bijv. “Halcyon”, “Bramble”, “Crosshatch”) herkenden de geautomatiseerde diensten als groep de juiste spelling in ca. 47% van de uitingen. De menselijke CART-schrijver herkende ze in 96% van de uitingen — omdat we haar vooraf de woordenlijst hadden verstrekt. Drie van de zes diensten accepteren een aangepaste woordenschat; de andere drie niet.

  5. 052 van 6

    Slechts twee van de zes diensten kondigen ondertitelupdates aan hulptechnologie aan via een juist ARIA live-regio

    De webclient van Otter.ai en het ondertitelvenster van Google Meet leggen updates bloot via aria-live=“polite”-regio’s waarop een schermlezer-gebruiker zich kan abonneren. Zoom, Teams, Webex en StreamText renderen ondertitels in DOM-knooppunten die niet worden aangekondigd — wat betekent dat een Doof-blinde gebruiker op een brailledisplay geen signaal ontvangt dat er nieuwe tekst is verschenen.

  6. 065,4×

    Door-elkaar-heen-spraak degradeert de nauwkeurigheid meer dan accent of jargon

    Tijdens de drie minuten gescripte door-elkaar-heen-spraak steeg de gemiddelde geautomatiseerde WER van ca. 7,9% (basislijn één spreker) naar ca. 42,6% — een verslechtering van 5,4×. Accentvariatie alleen verschoof de WER met 1,8×; jargondichtheid met 2,1×. Twee-spreker-overlap is het faalpatroon dat nog geen enkele commerciële geautomatiseerde dienst heeft opgelost.

  7. 073

    Drie aanbieders dragen een SAS-LIVE-certificering; slechts één ervan stond bovenaan onze nauwkeurigheidsrangschikking

    SAS-LIVE (de Speech-Accessibility Standard for live captioning, geratificeerd 2024) certificeert aanbieders tegen een gepubliceerde WER-vloer van 8% op een samengesteld corpus. Otter.ai, StreamText en één Microsoft Teams-configuratie dragen de certificering op het moment van schrijven. Otter.ai stond bovenaan onze samengestelde rangschikking; StreamText eindigde derde; de gecertificeerde Teams-configuratie eindigde vierde.

Bron — Drie testsessies van 60 minuten opgenomen op 4–6 mei 2026 met acht gescripte panelsprekers, identiek script over sessies heen, gelijktijdige menselijke CART-controle. Audio gerouteerd via Loopback naar het native ondertitelpad van elk platform. Transcripten vergeleken met de CART-controle met behulp van NIST sclite voor WER.


Methodologie en testomstandigheden

Een live-ondertitelingsbenchmark staat of valt met de controle. We hebben drie identieke sessies van 60 minuten op drie afzonderlijke dagen georganiseerd. Elke sessie volgde hetzelfde voorbereide script: een opening door de moderator, vier gescripte sprekersbeurten van circa zeven minuten elk, twee openediscussiepassages van in totaal elf minuten, een drie minuten durende gescripte door-elkaar-heen-spraakpassage met twee en soms drie overlappende sprekers, en een afsluitende samenvatting.

Acht externe panelleden lazen van het script. Ze werden geïnstrueerd over het tempo maar niet over het testdoel. Vertegenwoordigde accenten: Algemeen Amerikaans (twee sprekers), Received Pronunciation (één), Indiaas Engels (één), Bulgaars-geaccentueerd Engels (één), Singaporees Engels (één), Frans-geaccentueerd Engels (één), Schots Engels (één). Het script bevatte zeventien genoemde entiteiten — twaalf echte (VN-agentschappen, wetsreferenties, productnamen uit het publieke domein) en vijf fictieve codenamen die speciaal voor deze benchmark zijn bedacht.

Elke sessie werd tegelijkertijd ondertiteld via alle zes diensten. Audio werd gerouteerd via een Loopback-aggregaatapparaat naar het native ondertitelpad van elk platform; er werd geen derde-partij spraakherkenningslaag ingevoegd. De professionele CART-schrijver trad toe als deelnemer op een verborgen lijn en haar transcript werd voorzien van tijdstempels op basis van dezelfde audio. De woordfoutratio werd berekend ten opzichte van het CART-transcript met behulp van NIST sclite met hoofdletterongevoelige scoring en standaard substituie-/invoeging-/weglatinggewichten.

01ScriptfixatieIdentiek script van 60 minuten over drie sessies; panelleden kregen niet te horen wat werd gemeten.
02AudiorouteringLoopback-aggregaatapparaat voedde tegelijkertijd het native ondertitelpad van elk platform.
03Menselijke controleRPR-gecertificeerde CART-schrijver trad verborgen toe, hield 240 WPM aan, fungeerde als goudstandaard.
04ScoringNIST sclite, hoofdletterongevoelig, standaardgewichten. Latentie gemeten via golfvorm-naar-DOM-tijdstempel.
3
testsessies
8
panelsprekers
17
genoemde entiteiten
180
totale ondertitelminuten per dienst

De samengestelde rangschikking

De samengestelde WER is het ongewogen gemiddelde van de per-sessie WER over de drie sessies, gescoord ten opzichte van de CART-controle. De toprangschikking, laagste WER eerst:

01
Otter.ai (Pro-niveau, aangepaste woordenschat geladen)
SAS-LIVE gecertificeerd · webclient · ca. 6,2% samengestelde WER
6,2%
02
Google Meet-ondertiteling (Workspace Business)
Niet SAS-LIVE gecertificeerd · ca. 7,9% samengestelde WER
7,9%
03
StreamText (operator-gestuurd, menselijk gecorrigeerd)
SAS-LIVE gecertificeerd · ca. 8,4% samengestelde WER
8,4%
04
Microsoft Teams (met aangepaste woordenschat ingeschakeld)
SAS-LIVE gecertificeerde configuratie · ca. 9,6% samengestelde WER
9,6%
05
Zoom (cloud-ondertiteling, niet-VS-regio)
Niet SAS-LIVE gecertificeerd · ca. 11,7% samengestelde WER
11,7%
06
Cisco Webex-ondertiteling (standaardconfiguratie)
Niet SAS-LIVE gecertificeerd · ca. 14,8% samengestelde WER
14,8%
Samengestelde woordfoutratio per live-ondertitelingsdienst over drie testsessies van 60 minutenEen horizontaal staafdiagram van de samengestelde woordfoutratio. Van laagste naar hoogste: menselijke CART-controle 3,1 procent (goudstandaard-basislijn, ter referentie getoond); Otter.ai 6,2 procent (beste geautomatiseerd, gemarkeerd); Google Meet 7,9 procent; StreamText 8,4 procent; Microsoft Teams 9,6 procent; Zoom 11,7 procent; Cisco Webex 14,8 procent (slechtste geautomatiseerd, gemarkeerd). Het verschil tussen beste en slechtste geautomatiseerde dienst is 4,8 keer.SAS-LIVE 8% vloer0%5%10%15%Menselijke CARTOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (controle)6,2%7,9%8,4%9,6%11,7%14,8%Samengestelde WER, drie sessies van 60 min, NIST sclite vs. menselijke CART-controle
De samengestelde rangschikking omspant een spreiding van 4,8× tussen beste en slechtste geautomatiseerde dienst — breed genoeg dat de platformkeuze op zichzelf een toegankelijkheidsbeslissing is, niet slechts een aanbestedingskwestie. De menselijke CART-controle op 3,1% (schaduwbalk, boven) stelt de goudstandaard; rood markeert de beste en slechtste geautomatiseerde diensten ten opzichte van de SAS-LIVE 8%-certificeringsvloer.

De keuze tussen twee enterprise-grade conferentieplatforms kan het verschil betekenen tussen een woordfoutratio van 6% en 15%. Dat is geen gereedschapsverschil. Dat is een inclusieverschil.


WER per sprekerscondities

De samengestelde WER verbergt de details. Om te zien waar elke dienst faalt, hebben we de audio opgesplitst in vier condities: schoon single-speaker Amerikaans Engels, mixed-accent single-speaker, jargon-dichte passages en gescripte door-elkaar-heen-spraak. Dezelfde zes diensten op dezelfde audio, uitgesplitst per conditie:

GEMIDDELDE WER PER SPREKERSCONDITIES — GEAUTOMATISEERDE DIENSTEN SAMENGESTELD
Schoon VS-Engels
ca. 4,1%
Mixed-accent
ca. 7,4%
Jargon-dicht
ca. 8,6%
Door-elkaar-heen-spraak (2–3 sprekers)
ca. 42,6%

Het diagram comprimeert de hoofdbevinding in één beeld: accentvariatie is een echte straf, jargon is een grotere straf, en overlappende spraak is een klif. In de door-elkaar-heen-spraakpassage daalde de slechtste geautomatiseerde dienst naar een WER boven 60% — waarbij het transcript, in de beleefde formulering van het SAS-LIVE-kader, “communicatief niet betrouwbaar” is.

4,1%
WER op schoon VS-Engels single-speaker, geautomatiseerd gemiddelde
42,6%
WER op gescripte door-elkaar-heen-spraak, geautomatiseerd gemiddelde
10,4×
verslechteringsfactor — schoon naar door-elkaar-heen-spraak
Waarom door-elkaar-heen-spraak elke geautomatiseerde dienst breekt

Commerciële spraakherkenningspijplijnen gaan uit van één akoestische stroom per spreker. Moderne systemen gebruiken diarisatie om audiofragmenten toe te wijzen aan sprekers-ID’s, maar diarisatie wordt uitgevoerd na segmentatie — en tijdens overlap mislukt de segmentatie zelf. Het resultaat is één uitvoerkanaal waarin twee uitingen worden samengevoegd, wat een transcript oplevert dat grammaticaal correct maar feitelijk onjuist is over wie wat zei. Een menselijke CART-schrijver lost dit op door één van de overlappende sprekers te parafraseren en de andere te prefixen met een naametiket. Geen enkele ingezette geautomatiseerde dienst doet dit in 2026.


Latentie op het netwerk

Latentie werd gemeten als de verstreken tijd tussen de golfvormpiek van een gesproken lettergreep en het verschijnen van het corresponderende token in de ondertitel-DOM van het platform, vastgelegd via een high-frame-rate schermopname die was uitgelijnd op de audiogolfvorm. Mediane latentie over de drie sessies:

MEDIANE END-TO-END LATENTIE — LAGER IS BETER
Google Meet
ca. 0,9 s
Microsoft Teams
ca. 1,4 s
Otter.ai
ca. 1,9 s
Webex
ca. 2,7 s
StreamText
ca. 3,8 s
Zoom (niet-VS-regio)
ca. 5,6 s

Latentie is van belang omdat conversationeel herstel een tijdvenster heeft. De Dovenonderzoeksliteratuur over realtime ondertiteling convergeert op een bruikbaar maximum van circa twee seconden — daarna kan een Dove deelnemer geen verduidelijkende vraag stellen terwijl die nog relevant is. Op basis van die test halen Google Meet, Teams en Otter de lat; Webex zit op de grens; StreamText en Zoom niet.

De hogere latentie van StreamText is deels architecturaal — het is operator-gestuurd, zodat een menselijke toetsaanslag in de lus zit — en deels de prijs van zijn lagere WER op jargon. De latentie van Zoom in onze opzet is moeilijker te rechtvaardigen; op een VS-regio met cloud-ondertiteling ingeschakeld hebben eerder gepubliceerde benchmarks medianen van minder dan drie seconden gemeld, zodat een mediane waarde van 5,6 s in onze Europese-regiotests de regionale infrastructuur weerspiegelt en niet het plafond van het platform.


Namen, jargon en het woordenlijstprobleem

Van de zeventien genoemde entiteiten in het script waren er vijf codenamen die speciaal voor deze benchmark zijn bedacht. De vijf werden gekozen om plausibele productnamen te zijn maar niet aanwezig te zijn in enig publiek corpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De eerste drie zijn gewone Engelse woorden; de laatste twee zijn minder gangbaar. We verwachtten dat zelfs de beste geautomatiseerde diensten moeite zouden hebben met de zeldzame-woordenschatgevallen, en dat klopt.

01
Menselijke CART-schrijver (voorzien van woordenlijst)
96% correcte herinnering van entiteiten met codenaam
96%
02
Otter.ai (aangepaste woordenschat geladen)
71% correcte herinnering — aangepaste woordenschat maakte het verschil
71%
03
Microsoft Teams (aangepaste woordenschat geladen)
59% correcte herinnering
59%
04
StreamText (operator geïnformeerd)
52% correcte herinnering — operator had geen vooraf woordenlijst
52%
05
Google Meet (geen optie voor aangepaste woordenschat)
38% correcte herinnering
38%
06
Zoom + Webex (geen optie voor aangepaste woordenschat)
ca. 24% correcte herinnering gecombineerd — raadde fonetische homoniem
24%

De les is operationeel. Aangepaste woordenschat is de grootste nauwkeurigheidshendel die een vergaderorganisator in handen heeft. De drie diensten die een vooraf geladen woordenlijst accepteren (Otter, Teams en de Azure-ondersteunde cloud-configuraties van Webex die we niet hebben getest) presteren consequent beter dan diensten die dat niet doen. Wanneer het publiek Dove of slechthorende deelnemers omvat en de vergadering jargon of eigennamen bevat, is de afwezigheid van een aangepaste-woordenschat-slot een betekenisvolle toegankelijkheidsbeperking, niet een ontbrekend geriefbedrijf.

Een opmerking over de SAS-LIVE-certificering

SAS-LIVE certificeert een ondertitelingaanbieder op basis van een gepubliceerd corpus en een gepubliceerde WER-vloer (8% op het moment van schrijven). Certificering is betekenisvol als vloer — het betekent dat de aanbieder heeft aangetoond dat zijn pijplijn 8% kan halen op de certificerende audio — maar het is geen plafond. Onze benchmark gebruikte een ander corpus (mixed-accent panelspraak met door-elkaar-heen-spraak), en de gecertificeerde diensten varieerden van 6,2% (Otter) tot 9,6% (Teams) op onze audio. Behandel SAS-LIVE als een aanbestedingsfilter, niet als vervanging voor testen op de audio die uw organisatie werkelijk produceert.


Hulptechnologie-integratie

WER meet of het transcript correct is. Hulptechnologie-integratie meet of een gebruiker met een schermlezer, brailledisplay of lagevisie-loep het transcript daadwerkelijk in realtime kan consumeren. De twee zijn niet hetzelfde. Een perfect nauwkeurig transcript weergegeven in een DOM-knooppunt zonder aria-live-attribuut is onzichtbaar voor een Doof-blinde gebruiker op een brailledisplay, omdat de hulptechnologie nooit het signaal ontvangt dat er nieuwe tekst is verschenen.

We hebben het ondertitelvenster van elk platform gecontroleerd op vier hulptechnologie-integratie-eigenschappen: live-regioaankondiging, transcript-export aan het einde van de vergadering, focusbare besturingselementen en toetsenbordssnelkoppeling om ondertiteling in- of uit te schakelen. De matrix:

01
Otter.ai webclient
Alle vier: aria-live polite · export · focusbaar · toetsenbordswissel
4 van 4
02
Google Meet
aria-live polite · geen native export · focusbaar · toetsenbordswissel
3 van 4
03
Microsoft Teams
Geen aria-live · export beschikbaar · focusbaar · toetsenbordswissel
3 van 4
04
StreamText embed
Geen aria-live · export beschikbaar · gedeeltelijke focus · geen toetsenbordswissel
2 van 4
05
Zoom desktoptoepassing
Geen aria-live · export beschikbaar · gedeeltelijke focus · toetsenbordswissel
2 van 4
06
Cisco Webex
Geen aria-live · export beschikbaar · niet focusbaar · geen toetsenbordswissel
1 van 4

De kolom hulptechnologie-integratie herordent de rangschikking op interessante wijze. Otter blijft op de eerste plaats; maar Teams, dat vierde eindigde op WER, klimt naar een gedeelde tweede plaats op hulptechnologie-integratie. Webex staat onderaan op beide assen. Een Doof-blinde gebruiker op een brailledisplay is in de huidige generatie producten het best geholpen met Otter of Google Meet.


Wat de menselijke CART-schrijver nog steeds beter doet

De controle-CART-schrijver presteerde beter dan elke geautomatiseerde dienst op elke gemeten as. WER 3,1% versus het beste geautomatiseerde 6,2%. Herinnering codenamen 96% versus het beste geautomatiseerde 71%. Door-elkaar-heen-spraak WER ca. 9% — een getal dat geen enkele geautomatiseerde dienst binnen dertig procentpunten benaderde.

Maar het menselijke voordeel is niet alleen mechanisch. Verschillende redactionele gedragingen zijn nog steeds uniek menselijk. De CART-schrijver parafraseerde sprekers die struikelden en behield betekenis ten koste van letterlijke woordelijkheid — geautomatiseerde diensten laten de gestruikelde zin ofwel vallen of weergeven als onzin. Ze voorzag sprekersbeurten van een naametiket als prefix bij elke wisseling van spreker — geautomatiseerde diensten verweven zonder toewijzing. Ze voegde een verduidelijkende noot toe tussen vierkante haakjes wanneer een spreker verwees naar een dia die het ondertiteld publiek niet kon zien. Geen van deze handelingen verschijnt in een WER-score, maar elk ervan is een deel van waarom een professioneel CART-ondertitelde vergadering toegankelijk aanvoelt op een manier die een geautomatiseerde zelden doet.

CART-schrijver, debriefing na sessie
Het moeilijkste moment in een panel als dit is niet een sterk accent of een technische term. Het zijn twee mensen die tegelijk spreken en een derde die erin lacht. Ik zal de ene parafraseren, de andere in de wacht zetten en het lachen etiketteren. De machine kan niet beslissen welke stem te laten vallen, dus laat hij ze allebei in dezelfde regel vallen. Die regel is dan technisch ondertiteld en praktisch nutteloos.
— CART-schrijver, sessie 02 debriefing, 5 mei 2026

De benchmark in context

De hoofdbevinding is niet dat één dienst won. Het is dat de spreiding tussen beste en slechtste breed genoeg is dat platformkeuze op zichzelf een toegankelijkheidsbeslissing is. Een organisatie die standaard Webex gebruikte omdat het al in de aanbestedingsstack zat, levert een transcript met meer dan twee keer het foutpercentage van een organisatie die standaard Otter gebruikte — voor dezelfde spreker, hetzelfde script, dezelfde audio. Dat is geen marginaal verschil.

De tweede bevinding is dat geautomatiseerde ondertiteling nog geen vervanging is voor een menselijke CART-schrijver in omstandigheden waar nauwkeurigheid er werkelijk toe doet: juridische procedures, medische consulten, bestuursvergaderingen, klassikale instructie. Het verschil 3,1% / 6,2% ziet er klein uit op een blad met cijfers en voelt groot aan voor een Dove deelnemer die probeert een snelle conversatie te volgen. Waar de inzetten de kosten rechtvaardigen, is een menselijke CART-schrijver nog steeds de goudstandaard, en het SAS-LIVE-certificeringskader handhaaft die hiërarchie uitdrukkelijk.

De derde bevinding is operationeel. Aangepaste woordenschat is de meest ondergebruikte toegankelijkheidshendel in vergaderoperaties. Drie van de zes door ons geteste diensten accepteren een vooraf geladen woordenlijst. Vrijwel geen van de organisaties waarmee we spraken tijdens het ontwerp van deze benchmark gebruikte die functie, zelfs niet wanneer die beschikbaar was op het niveau dat ze al hadden betaald. De eigennamen en productnamen van de vergadering vóór de vergadering in de ondertitelingsdienst laden is een taak van vijf minuten die het grootste deel van het genoemde-entiteits-gat sluit.