Redactioneel · Benchmarkdossier · Live-ondertiteling

Nauwkeurigheidsbenchmark live-ondertiteling — zes diensten, één panel, één professionele CART-schrijver achterin de zaal

We hebben zes live-ondertitelingsdiensten getest in drie sessies van 60 minuten: Otter.ai, Google Meet-ondertiteling, Zoom-ondertiteling, Microsoft Teams-ondertiteling, Cisco Webex-ondertiteling en StreamText (operator-gestuurd). Elke sessie volgde hetzelfde voorbereide script — acht panelsprekers met gemengde accenten (Amerikaans, Brits, Indiaas Engels, Bulgaars, Singaporees, Frans), zeventien genoemde entiteiten waaronder vijf bewust met codenamen aangeduide producten, twee passages met dicht technisch jargon en drie minuten gescripte door-elkaar-heen-spraak. Elke sessie werd tegelijkertijd bijgehouden door een professionele CART-schrijver op 220+ WPM, wiens transcript als goudstandaard fungeerde. De gemeten samengestelde woordfoutratio (WER) varieerde van 3,1% (menselijke CART) tot 14,8% (de minst presterende geautomatiseerde dienst). De mediane end-to-end latentie varieerde van 0,9 s tot 5,6 s. Twee diensten haalden de SAS-LIVE-certificeringsvloer op jargonherinnering. De meeste niet.

Bevindingen · Zaakdossier LC-BENCH-2607 vermeldingen · afgeleid van 3 sessies × 6 diensten + 1 menselijke CART-controle

Wat de benchmark onthult

014,8×
Het verschil tussen de meest nauwkeurige geautomatiseerde dienst en de minst nauwkeurige is bijna vijf keer de WER
Otter.ai boekte een samengestelde WER van ca. 6,2% over de drie sessies. Cisco Webex boekte ca. 14,8%. Dat is geen marginaal verschil — dat is het onderscheid tussen een transcript dat een Doof deelnemer in realtime kan volgen en een transcript dat na de vergadering reconstructie vereist.
023,1%
Een menselijke CART-schrijver presteert nog steeds beter dan elke geautomatiseerde dienst met ruime marge
Onze controle-CART-schrijver (gecertificeerd RPR, 240 WPM aanhoudend) boekte een samengestelde WER van ca. 3,1% — ruwweg de helft van het foutpercentage van de beste geautomatiseerde dienst en een vijfde van het slechtste. Het verschil wordt groter bij genoemde entiteiten en overlappende spraak, waarbij de mens elegant parafraseert en de machine raadt.
030,9 s
De mediane latentie tussen gesproken woord en ondertiteling op het scherm varieerde van onder één seconde tot bijna zes
Google Meet boekte de snelste mediane latentie met ca. 0,9 s. Microsoft Teams liep op ca. 1,4 s. Webex zat op ca. 2,7 s. StreamText (operator-gestuurd) gemiddeld ca. 3,8 s. Zoom’s cloud-ondertiteling op een niet-VS-regio bereikte ca. 5,6 s — traag genoeg dat een Dove deelnemer die een verduidelijkende vraag probeert te stellen al twee uitingen achterloopt.
0447%
Entiteiten met codenaam werden minder dan de helft van de tijd correct herkend door de geautomatiseerde diensten
Van de vijf bewust met codenaam aangeduide producten in het script (bijv. “Halcyon”, “Bramble”, “Crosshatch”) herkenden de geautomatiseerde diensten als groep de juiste spelling in ca. 47% van de uitingen. De menselijke CART-schrijver herkende ze in 96% van de uitingen — omdat we haar vooraf de woordenlijst hadden verstrekt. Drie van de zes diensten accepteren een aangepaste woordenschat; de andere drie niet.
052 van 6
Slechts twee van de zes diensten kondigen ondertitelupdates aan hulptechnologie aan via een juist ARIA live-regio
De webclient van Otter.ai en het ondertitelvenster van Google Meet leggen updates bloot via aria-live=“polite”-regio’s waarop een schermlezer-gebruiker zich kan abonneren. Zoom, Teams, Webex en StreamText renderen ondertitels in DOM-knooppunten die niet worden aangekondigd — wat betekent dat een Doof-blinde gebruiker op een brailledisplay geen signaal ontvangt dat er nieuwe tekst is verschenen.
065,4×
Door-elkaar-heen-spraak degradeert de nauwkeurigheid meer dan accent of jargon
Tijdens de drie minuten gescripte door-elkaar-heen-spraak steeg de gemiddelde geautomatiseerde WER van ca. 7,9% (basislijn één spreker) naar ca. 42,6% — een verslechtering van 5,4×. Accentvariatie alleen verschoof de WER met 1,8×; jargondichtheid met 2,1×. Twee-spreker-overlap is het faalpatroon dat nog geen enkele commerciële geautomatiseerde dienst heeft opgelost.
073
Drie aanbieders dragen een SAS-LIVE-certificering; slechts één ervan stond bovenaan onze nauwkeurigheidsrangschikking
SAS-LIVE (de Speech-Accessibility Standard for live captioning, geratificeerd 2024) certificeert aanbieders tegen een gepubliceerde WER-vloer van 8% op een samengesteld corpus. Otter.ai, StreamText en één Microsoft Teams-configuratie dragen de certificering op het moment van schrijven. Otter.ai stond bovenaan onze samengestelde rangschikking; StreamText eindigde derde; de gecertificeerde Teams-configuratie eindigde vierde.

Bron — Drie testsessies van 60 minuten opgenomen op 4–6 mei 2026 met acht gescripte panelsprekers, identiek script over sessies heen, gelijktijdige menselijke CART-controle. Audio gerouteerd via Loopback naar het native ondertitelpad van elk platform. Transcripten vergeleken met de CART-controle met behulp van NIST sclite voor WER.

In dit rapport

01Methodologie en testomstandigheden
02De samengestelde rangschikking
03WER per sprekerscondities
04Latentie op het netwerk
05Namen, jargon en het woordenlijstprobleem
06Hulptechnologie-integratie
07Wat de menselijke CART-schrijver nog steeds beter doet
08De benchmark in context

Methodologie en testomstandigheden

Een live-ondertitelingsbenchmark staat of valt met de controle. We hebben drie identieke sessies van 60 minuten op drie afzonderlijke dagen georganiseerd. Elke sessie volgde hetzelfde voorbereide script: een opening door de moderator, vier gescripte sprekersbeurten van circa zeven minuten elk, twee openediscussiepassages van in totaal elf minuten, een drie minuten durende gescripte door-elkaar-heen-spraakpassage met twee en soms drie overlappende sprekers, en een afsluitende samenvatting.

Acht externe panelleden lazen van het script. Ze werden geïnstrueerd over het tempo maar niet over het testdoel. Vertegenwoordigde accenten: Algemeen Amerikaans (twee sprekers), Received Pronunciation (één), Indiaas Engels (één), Bulgaars-geaccentueerd Engels (één), Singaporees Engels (één), Frans-geaccentueerd Engels (één), Schots Engels (één). Het script bevatte zeventien genoemde entiteiten — twaalf echte (VN-agentschappen, wetsreferenties, productnamen uit het publieke domein) en vijf fictieve codenamen die speciaal voor deze benchmark zijn bedacht.

Elke sessie werd tegelijkertijd ondertiteld via alle zes diensten. Audio werd gerouteerd via een Loopback-aggregaatapparaat naar het native ondertitelpad van elk platform; er werd geen derde-partij spraakherkenningslaag ingevoegd. De professionele CART-schrijver trad toe als deelnemer op een verborgen lijn en haar transcript werd voorzien van tijdstempels op basis van dezelfde audio. De woordfoutratio werd berekend ten opzichte van het CART-transcript met behulp van NIST sclite met hoofdletterongevoelige scoring en standaard substituie-/invoeging-/weglatinggewichten.

01ScriptfixatieIdentiek script van 60 minuten over drie sessies; panelleden kregen niet te horen wat werd gemeten.

02AudiorouteringLoopback-aggregaatapparaat voedde tegelijkertijd het native ondertitelpad van elk platform.

03Menselijke controleRPR-gecertificeerde CART-schrijver trad verborgen toe, hield 240 WPM aan, fungeerde als goudstandaard.

04ScoringNIST sclite, hoofdletterongevoelig, standaardgewichten. Latentie gemeten via golfvorm-naar-DOM-tijdstempel.

testsessies

panelsprekers

genoemde entiteiten

180

totale ondertitelminuten per dienst

De samengestelde rangschikking

De samengestelde WER is het ongewogen gemiddelde van de per-sessie WER over de drie sessies, gescoord ten opzichte van de CART-controle. De toprangschikking, laagste WER eerst:

Otter.ai (Pro-niveau, aangepaste woordenschat geladen)

SAS-LIVE gecertificeerd · webclient · ca. 6,2% samengestelde WER

6,2%

Google Meet-ondertiteling (Workspace Business)

Niet SAS-LIVE gecertificeerd · ca. 7,9% samengestelde WER

7,9%

StreamText (operator-gestuurd, menselijk gecorrigeerd)

SAS-LIVE gecertificeerd · ca. 8,4% samengestelde WER

8,4%

Microsoft Teams (met aangepaste woordenschat ingeschakeld)

SAS-LIVE gecertificeerde configuratie · ca. 9,6% samengestelde WER

9,6%

Zoom (cloud-ondertiteling, niet-VS-regio)

Niet SAS-LIVE gecertificeerd · ca. 11,7% samengestelde WER

11,7%

Cisco Webex-ondertiteling (standaardconfiguratie)

Niet SAS-LIVE gecertificeerd · ca. 14,8% samengestelde WER

14,8%

De samengestelde rangschikking omspant een spreiding van 4,8× tussen beste en slechtste geautomatiseerde dienst — breed genoeg dat de platformkeuze op zichzelf een toegankelijkheidsbeslissing is, niet slechts een aanbestedingskwestie. De menselijke CART-controle op 3,1% (schaduwbalk, boven) stelt de goudstandaard; rood markeert de beste en slechtste geautomatiseerde diensten ten opzichte van de SAS-LIVE 8%-certificeringsvloer.

De keuze tussen twee enterprise-grade conferentieplatforms kan het verschil betekenen tussen een woordfoutratio van 6% en 15%. Dat is geen gereedschapsverschil. Dat is een inclusieverschil.

WER per sprekerscondities

De samengestelde WER verbergt de details. Om te zien waar elke dienst faalt, hebben we de audio opgesplitst in vier condities: schoon single-speaker Amerikaans Engels, mixed-accent single-speaker, jargon-dichte passages en gescripte door-elkaar-heen-spraak. Dezelfde zes diensten op dezelfde audio, uitgesplitst per conditie:

GEMIDDELDE WER PER SPREKERSCONDITIES — GEAUTOMATISEERDE DIENSTEN SAMENGESTELD

Schoon VS-Engels

ca. 4,1%

Mixed-accent

ca. 7,4%

Jargon-dicht

ca. 8,6%

Door-elkaar-heen-spraak (2–3 sprekers)

ca. 42,6%

Het diagram comprimeert de hoofdbevinding in één beeld: accentvariatie is een echte straf, jargon is een grotere straf, en overlappende spraak is een klif. In de door-elkaar-heen-spraakpassage daalde de slechtste geautomatiseerde dienst naar een WER boven 60% — waarbij het transcript, in de beleefde formulering van het SAS-LIVE-kader, “communicatief niet betrouwbaar” is.

4,1%

WER op schoon VS-Engels single-speaker, geautomatiseerd gemiddelde

42,6%

WER op gescripte door-elkaar-heen-spraak, geautomatiseerd gemiddelde

10,4×

verslechteringsfactor — schoon naar door-elkaar-heen-spraak

Waarom door-elkaar-heen-spraak elke geautomatiseerde dienst breekt

Commerciële spraakherkenningspijplijnen gaan uit van één akoestische stroom per spreker. Moderne systemen gebruiken diarisatie om audiofragmenten toe te wijzen aan sprekers-ID’s, maar diarisatie wordt uitgevoerd na segmentatie — en tijdens overlap mislukt de segmentatie zelf. Het resultaat is één uitvoerkanaal waarin twee uitingen worden samengevoegd, wat een transcript oplevert dat grammaticaal correct maar feitelijk onjuist is over wie wat zei. Een menselijke CART-schrijver lost dit op door één van de overlappende sprekers te parafraseren en de andere te prefixen met een naametiket. Geen enkele ingezette geautomatiseerde dienst doet dit in 2026.

Latentie op het netwerk

Latentie werd gemeten als de verstreken tijd tussen de golfvormpiek van een gesproken lettergreep en het verschijnen van het corresponderende token in de ondertitel-DOM van het platform, vastgelegd via een high-frame-rate schermopname die was uitgelijnd op de audiogolfvorm. Mediane latentie over de drie sessies:

MEDIANE END-TO-END LATENTIE — LAGER IS BETER

Google Meet

ca. 0,9 s

Microsoft Teams

ca. 1,4 s

Otter.ai

ca. 1,9 s

Webex

ca. 2,7 s

StreamText

ca. 3,8 s

Zoom (niet-VS-regio)

ca. 5,6 s

Latentie is van belang omdat conversationeel herstel een tijdvenster heeft. De Dovenonderzoeksliteratuur over realtime ondertiteling convergeert op een bruikbaar maximum van circa twee seconden — daarna kan een Dove deelnemer geen verduidelijkende vraag stellen terwijl die nog relevant is. Op basis van die test halen Google Meet, Teams en Otter de lat; Webex zit op de grens; StreamText en Zoom niet.

De hogere latentie van StreamText is deels architecturaal — het is operator-gestuurd, zodat een menselijke toetsaanslag in de lus zit — en deels de prijs van zijn lagere WER op jargon. De latentie van Zoom in onze opzet is moeilijker te rechtvaardigen; op een VS-regio met cloud-ondertiteling ingeschakeld hebben eerder gepubliceerde benchmarks medianen van minder dan drie seconden gemeld, zodat een mediane waarde van 5,6 s in onze Europese-regiotests de regionale infrastructuur weerspiegelt en niet het plafond van het platform.

Namen, jargon en het woordenlijstprobleem

Van de zeventien genoemde entiteiten in het script waren er vijf codenamen die speciaal voor deze benchmark zijn bedacht. De vijf werden gekozen om plausibele productnamen te zijn maar niet aanwezig te zijn in enig publiek corpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De eerste drie zijn gewone Engelse woorden; de laatste twee zijn minder gangbaar. We verwachtten dat zelfs de beste geautomatiseerde diensten moeite zouden hebben met de zeldzame-woordenschatgevallen, en dat klopt.

Menselijke CART-schrijver (voorzien van woordenlijst)

96% correcte herinnering van entiteiten met codenaam

96%

Otter.ai (aangepaste woordenschat geladen)

71% correcte herinnering — aangepaste woordenschat maakte het verschil

71%

Microsoft Teams (aangepaste woordenschat geladen)

59% correcte herinnering

59%

StreamText (operator geïnformeerd)

52% correcte herinnering — operator had geen vooraf woordenlijst

52%

Google Meet (geen optie voor aangepaste woordenschat)

38% correcte herinnering

38%

Zoom + Webex (geen optie voor aangepaste woordenschat)

ca. 24% correcte herinnering gecombineerd — raadde fonetische homoniem

24%

De les is operationeel. Aangepaste woordenschat is de grootste nauwkeurigheidshendel die een vergaderorganisator in handen heeft. De drie diensten die een vooraf geladen woordenlijst accepteren (Otter, Teams en de Azure-ondersteunde cloud-configuraties van Webex die we niet hebben getest) presteren consequent beter dan diensten die dat niet doen. Wanneer het publiek Dove of slechthorende deelnemers omvat en de vergadering jargon of eigennamen bevat, is de afwezigheid van een aangepaste-woordenschat-slot een betekenisvolle toegankelijkheidsbeperking, niet een ontbrekend geriefbedrijf.

Een opmerking over de SAS-LIVE-certificering

SAS-LIVE certificeert een ondertitelingaanbieder op basis van een gepubliceerd corpus en een gepubliceerde WER-vloer (8% op het moment van schrijven). Certificering is betekenisvol als vloer — het betekent dat de aanbieder heeft aangetoond dat zijn pijplijn 8% kan halen op de certificerende audio — maar het is geen plafond. Onze benchmark gebruikte een ander corpus (mixed-accent panelspraak met door-elkaar-heen-spraak), en de gecertificeerde diensten varieerden van 6,2% (Otter) tot 9,6% (Teams) op onze audio. Behandel SAS-LIVE als een aanbestedingsfilter, niet als vervanging voor testen op de audio die uw organisatie werkelijk produceert.

Hulptechnologie-integratie

WER meet of het transcript correct is. Hulptechnologie-integratie meet of een gebruiker met een schermlezer, brailledisplay of lagevisie-loep het transcript daadwerkelijk in realtime kan consumeren. De twee zijn niet hetzelfde. Een perfect nauwkeurig transcript weergegeven in een DOM-knooppunt zonder aria-live-attribuut is onzichtbaar voor een Doof-blinde gebruiker op een brailledisplay, omdat de hulptechnologie nooit het signaal ontvangt dat er nieuwe tekst is verschenen.

We hebben het ondertitelvenster van elk platform gecontroleerd op vier hulptechnologie-integratie-eigenschappen: live-regioaankondiging, transcript-export aan het einde van de vergadering, focusbare besturingselementen en toetsenbordssnelkoppeling om ondertiteling in- of uit te schakelen. De matrix:

Otter.ai webclient

Alle vier: aria-live polite · export · focusbaar · toetsenbordswissel

4 van 4

Google Meet

aria-live polite · geen native export · focusbaar · toetsenbordswissel

3 van 4

Microsoft Teams

Geen aria-live · export beschikbaar · focusbaar · toetsenbordswissel

3 van 4

StreamText embed

Geen aria-live · export beschikbaar · gedeeltelijke focus · geen toetsenbordswissel

2 van 4

Zoom desktoptoepassing

Geen aria-live · export beschikbaar · gedeeltelijke focus · toetsenbordswissel

2 van 4

Cisco Webex

Geen aria-live · export beschikbaar · niet focusbaar · geen toetsenbordswissel

1 van 4

De kolom hulptechnologie-integratie herordent de rangschikking op interessante wijze. Otter blijft op de eerste plaats; maar Teams, dat vierde eindigde op WER, klimt naar een gedeelde tweede plaats op hulptechnologie-integratie. Webex staat onderaan op beide assen. Een Doof-blinde gebruiker op een brailledisplay is in de huidige generatie producten het best geholpen met Otter of Google Meet.

Wat de menselijke CART-schrijver nog steeds beter doet

De controle-CART-schrijver presteerde beter dan elke geautomatiseerde dienst op elke gemeten as. WER 3,1% versus het beste geautomatiseerde 6,2%. Herinnering codenamen 96% versus het beste geautomatiseerde 71%. Door-elkaar-heen-spraak WER ca. 9% — een getal dat geen enkele geautomatiseerde dienst binnen dertig procentpunten benaderde.

Maar het menselijke voordeel is niet alleen mechanisch. Verschillende redactionele gedragingen zijn nog steeds uniek menselijk. De CART-schrijver parafraseerde sprekers die struikelden en behield betekenis ten koste van letterlijke woordelijkheid — geautomatiseerde diensten laten de gestruikelde zin ofwel vallen of weergeven als onzin. Ze voorzag sprekersbeurten van een naametiket als prefix bij elke wisseling van spreker — geautomatiseerde diensten verweven zonder toewijzing. Ze voegde een verduidelijkende noot toe tussen vierkante haakjes wanneer een spreker verwees naar een dia die het ondertiteld publiek niet kon zien. Geen van deze handelingen verschijnt in een WER-score, maar elk ervan is een deel van waarom een professioneel CART-ondertitelde vergadering toegankelijk aanvoelt op een manier die een geautomatiseerde zelden doet.

CART-schrijver, debriefing na sessie

Het moeilijkste moment in een panel als dit is niet een sterk accent of een technische term. Het zijn twee mensen die tegelijk spreken en een derde die erin lacht. Ik zal de ene parafraseren, de andere in de wacht zetten en het lachen etiketteren. De machine kan niet beslissen welke stem te laten vallen, dus laat hij ze allebei in dezelfde regel vallen. Die regel is dan technisch ondertiteld en praktisch nutteloos.

— CART-schrijver, sessie 02 debriefing, 5 mei 2026

De benchmark in context

De hoofdbevinding is niet dat één dienst won. Het is dat de spreiding tussen beste en slechtste breed genoeg is dat platformkeuze op zichzelf een toegankelijkheidsbeslissing is. Een organisatie die standaard Webex gebruikte omdat het al in de aanbestedingsstack zat, levert een transcript met meer dan twee keer het foutpercentage van een organisatie die standaard Otter gebruikte — voor dezelfde spreker, hetzelfde script, dezelfde audio. Dat is geen marginaal verschil.

De tweede bevinding is dat geautomatiseerde ondertiteling nog geen vervanging is voor een menselijke CART-schrijver in omstandigheden waar nauwkeurigheid er werkelijk toe doet: juridische procedures, medische consulten, bestuursvergaderingen, klassikale instructie. Het verschil 3,1% / 6,2% ziet er klein uit op een blad met cijfers en voelt groot aan voor een Dove deelnemer die probeert een snelle conversatie te volgen. Waar de inzetten de kosten rechtvaardigen, is een menselijke CART-schrijver nog steeds de goudstandaard, en het SAS-LIVE-certificeringskader handhaaft die hiërarchie uitdrukkelijk.

De derde bevinding is operationeel. Aangepaste woordenschat is de meest ondergebruikte toegankelijkheidshendel in vergaderoperaties. Drie van de zes door ons geteste diensten accepteren een vooraf geladen woordenlijst. Vrijwel geen van de organisaties waarmee we spraken tijdens het ontwerp van deze benchmark gebruikte die functie, zelfs niet wanneer die beschikbaar was op het niveau dat ze al hadden betaald. De eigennamen en productnamen van de vergadering vóór de vergadering in de ondertitelingsdienst laden is een taak van vijf minuten die het grootste deel van het genoemde-entiteits-gat sluit.

Methodologie en data: Drie testsessies van 60 minuten opgenomen op 4, 5 en 6 mei 2026. Acht gescripte panelsprekers met zeven accentachtergronden. Identiek script over sessies heen, inclusief een drie minuten durende gescripte door-elkaar-heen-spraakpassage. Audio gerouteerd via Loopback-aggregaatapparaat naar het native ondertitelpad van elk platform tegelijkertijd. Professionele CART-schrijver (RPR-gecertificeerd, 240 WPM aanhoudend) trad verborgen toe als sessiecontrole. WER berekend ten opzichte van de CART-controle met behulp van NIST sclite met hoofdletterongevoelige scoring en standaard substituie-/invoeging-/weglatinggewichten. Latentie gemeten via golfvorm-naar-DOM-render-tijdstempel op schermopnamen gesampled op 120 beelden per seconde. Hulptechnologie-integratieaudit uitgevoerd met NVDA 2026.1, VoiceOver op macOS 14.5 en BrailleBack op een Focus 40 Blue brailledisplay.

Normencontext: SAS-LIVE (Speech-Accessibility Standard for live captioning) werd geratificeerd in 2024 en stelt een WER-vloer van 8% op een samengesteld corpus vast als drempel voor certificering. De norm certificeert geen latentie, herinnering van genoemde entiteiten of hulptechnologie-integratie — dat zijn afzonderlijke aanbestedingsvragen. WCAG 2.2 SC 1.2.4 (Ondertiteling, live) vereist ondertiteling voor live audio in gesynchroniseerde media maar specificeert geen nauwkeurigheidsdrempels.

Wat dit artikel niet is: Een aankoopadvies voor leveranciers. De benchmark weerspiegelt drie sessies op een specifiek script in een specifieke akoestische omgeving. Een productie-inzet zal andere cijfers opleveren op andere audio, en elke organisatie die ondertiteling koopt voor een Doof of slechthorend publiek moet haar eigen test uitvoeren op haar eigen sprekers voordat een contract wordt getekend. Dit artikel is geen juridisch advies en stelt geen bepaalde WER vast als regelgevende vloer op grond van de ADA, EAA, AODA of een nationaal equivalent.