Redaktionel · Benchmark-dossier · Live-undertekster

Live-undertekst nøjagtighedsbenchmark — seks tjenester, ét panel, én professionel CART-skriver bagerst i lokalet

Vi kørte seks live-underteksttjenester igennem tre 60-minutters testsessioner: Otter.ai, Google Meet-undertekster, Zoom-undertekster, Microsoft Teams-undertekster, Cisco Webex-undertekster og StreamText (operatørdrevet). Hver session bar det samme forberedte manuskript — otte paneltalere med blandede accenter (amerikansk, britisk, indisk engelsk, bulgarsk, singaporeansk, fransk), sytten navngivne enheder herunder fem bevidst kodenavngivne produkter, to passager med tæt ingeniørjargon og tre minutters scriptet krydssamtale. Hver session blev simultant undertekstet af en professionel CART-skriver ved 220+ WPM, hvis transskript tjente som guldstandarden. Målt sammensat ordfehlrate (WER) varierede fra 3,1% (menneskelig CART) til 14,8% (den dårligst præsterende automatiserede tjeneste). Median ende-til-ende-latenstid varierede fra 0,9 s til 5,6 s. To tjenester nåede SAS-LIVE-certificeringsgulvet på jargongenkaldelse. De fleste gjorde ikke.

Resultater · Sagsmappen LC-BENCH-2607 indgange · afledt af 3 sessioner × 6 tjenester + 1 menneskelig CART-kontrol

Hvad benchmarket afslører

  1. 014,8×

    Kløften mellem den mest nøjagtige automatiserede tjeneste og den mindst nøjagtige er næsten fem gange WER

    Otter.ai postede en sammensat WER på ca. 6,2% på tværs af de tre sessioner. Cisco Webex postede ca. 14,8%. Det er ikke en marginal spredning — det er forskellen mellem et transskript, som en døv deltager kan følge i realtid, og et transskript, der kræver rekonstruktion efter mødet.

  2. 023,1%

    En menneskelig CART-skriver overgår stadig alle automatiserede tjenester med stor margin

    Vores kontrol-CART-skriver (certificeret RPR, 240 WPM vedvarende) postede en sammensat WER på ca. 3,1% — ca. halvdelen af fejlraten for den bedste automatiserede tjeneste og en femtedel af den dårligste. Kløften udvides yderligere på navngivne enheder og overlappende tale, hvor mennesket parafraserer elegant og maskinen gætter.

  3. 030,9 s

    Medianlatenstid mellem tale og undertekst på skærmen varierede fra under ét sekund til næsten seks

    Google Meet postede den hurtigste medianlatenstid på ca. 0,9 s. Microsoft Teams kørte på ca. 1,4 s. Webex lå på ca. 2,7 s. StreamText (operatørdrevet) gennemsnitliggjorde ca. 3,8 s. Zooms cloud-side undertekster på en ikke-US-region ramte ca. 5,6 s — langsomt nok til, at en døv deltager, der forsøger at stille et opklarende spørgsmål, allerede er to ytringer bagud.

  4. 0447%

    Kodenavngivne enheder blev gendannet korrekt under halvdelen af gangene på tværs af de automatiserede tjenester

    Af de fem bevidst kodenavngivne produkter i manuskriptet (f.eks. “Halcyon”, “Bramble”, “Crosshatch”) gendannede de automatiserede tjenester som gruppe den korrekte stavning i ca. 47% af ytringerne. Den menneskelige CART-skriver gendannede dem i 96% af ytringerne — fordi vi briefede hende med ordlisten på forhånd. Tre af de seks tjenester accepterer et tilpasset ordforråd; de andre tre gør ikke.

  5. 052 af 6

    Kun to af de seks tjenester annoncerer undertekstopdateringer til hjælpeteknologi via en korrekt ARIA live-region

    Otter.ai’s webklient og Google Meets undertekstpanel eksponerer begge opdateringer via aria-live=“polite”-regioner, som en skærmlæserbruger kan abonnere på. Zoom, Teams, Webex og StreamText gengiver undertekster i DOM-noder, der ikke annonceres — hvilket betyder, at en døvblind bruger på et brailledisplay ikke modtager noget signal om, at ny tekst er dukket op.

  6. 065,4×

    Krydssamtale forringer nøjagtighed mere end accent eller jargon gør

    Under den tre minutter lange scriptede krydssamtalepassage steg den gennemsnitlige automatiserede WER fra ca. 7,9% (enkelt-taler-baseline) til ca. 42,6% — en 5,4× forringelse. Accentvariation alene bevægede WER med 1,8×; jargontæthed med 2,1×. To-taler-overlap er den fejltilstand, ingen kommerciel automatiseret tjeneste endnu har løst.

  7. 073

    Tre udbydere har SAS-LIVE-certificering; kun én af dem toppede vores nøjagtighedsrangering

    SAS-LIVE (Speech-Accessibility Standard for live captioning, ratificeret 2024) certificerer udbydere mod et offentliggjort WER-gulv på 8% på et kurateret korpus. Otter.ai, StreamText og én Microsoft Teams-konfiguration har certificeringen på skrivetidspunktet. Otter.ai toppede vores sammensatte rangering; StreamText kom på tredjepladsen; den certificerede Teams-konfiguration kom på fjerdepladsen.

Kilde — Tre 60-minutters testsessioner optaget 4.–6. maj 2026 med otte scriptede paneltalere, identisk manuskript på tværs af sessioner, simultant menneskelig CART-kontrol. Audio rutet via Loopback ind i hver platforms native undertekststi. Transskripter afviget mod CART-kontrollen ved hjælp af NIST sclite for WER.


Metodologi og testbetingelser

Et live-undertekst-benchmark står eller falder på kontrollen. Vi bestilte tre identiske 60-minutters sessioner på tre separate dage. Hver session fulgte det samme forberedte manuskript: en moderatoråbning, fire scriptede talerture på ca. syv minutter hver, to åbne diskussionspassager med i alt elleve minutter, en tre minutter lang scriptet krydssamtale med to og lejlighedsvis tre overlapende talere og en afsluttende opsummering.

Otte fjernpanelister læste fra manuskriptet. De var briefet om tempo men ikke om testformålet. Repræsenterede accenter: General American (to talere), Received Pronunciation (én), indisk engelsk (én), bulgarsk-accentueret engelsk (én), singaporeansk engelsk (én), franskaccentueret engelsk (én), skotsk engelsk (én). Manuskriptet inkluderede sytten navngivne enheder — tolv rigtige (FN-agenturer, lovcitatreferencer, produktnavne fra det offentlige domæne) og fem fiktive kodenavne opfundet til dette benchmark.

Hver session blev simultant undertekstet igennem alle seks tjenester. Audio blev rutet via en Loopback-aggregatenhed ind i hver platforms native undertekststi; intet tredjeparts talegenkendelseslaglag blev indsat. Den professionelle CART-skriver deltog som en deltager på en skjult linje, og hendes transskript var tidsstemplet mod det samme audio. Ordfehlraten blev beregnet mod CART-transskriptet ved hjælp af NIST sclite med store/små bogstaver-ufølsom scoring og standard substitutions/indsættelses/slettings-vægte.

01ManuskriptlåsIdentisk 60-minutters manuskript på tværs af tre sessioner, panelister ikke fortalt, hvad der blev målt.
02AudiorutingLoopback-aggregatenhed fodrede hver platforms native undertekststi simultant.
03Menneskelig kontrolRPR-certificeret CART-skriver deltog skjult, vedligeholdt 240 WPM, tjente som guldstandard.
04ScoringNIST sclite, store/små bogstaver-ufølsom, standardvægte. Latenstid målt ved bølgeform-til-DOM-tidsstempel.
3
testsessioner
8
paneltalere
17
navngivne enheder
180
samlede undertekstminutter pr. tjeneste

Den sammensatte rangering

Sammensat WER er det uvægtede gennemsnit af per-session WER på tværs af de tre sessioner, scoret mod CART-kontrollen. Overordnet rangering, laveste WER først:

01
Otter.ai (Pro-niveau, tilpasset ordforråd indlæst)
SAS-LIVE-certificeret · webklient · ca. 6,2% sammensat WER
6,2%
02
Google Meet undertekster (workspace business)
Ikke SAS-LIVE-certificeret · ca. 7,9% sammensat WER
7,9%
03
StreamText (operatørdrevet, menneskelig-korrigeret)
SAS-LIVE-certificeret · ca. 8,4% sammensat WER
8,4%
04
Microsoft Teams (med tilpasset ordforråd aktiveret)
SAS-LIVE-certificeret konfiguration · ca. 9,6% sammensat WER
9,6%
05
Zoom (cloud-undertekster, ikke-US-region)
Ikke SAS-LIVE-certificeret · ca. 11,7% sammensat WER
11,7%
06
Cisco Webex undertekster (standardkonfiguration)
Ikke SAS-LIVE-certificeret · ca. 14,8% sammensat WER
14,8%
Sammensat ordfehlrate pr. live-underteksttjeneste på tværs af tre 60-minutters testsessionerEt vandret søjlediagram over sammensat ordfehlrate. Fra laveste til højeste: menneskelig CART-kontrol 3,1 procent (guldstandardbaseline, vist til reference); Otter.ai 6,2 procent (bedste automatiserede, fremhævet); Google Meet 7,9 procent; StreamText 8,4 procent; Microsoft Teams 9,6 procent; Zoom 11,7 procent; Cisco Webex 14,8 procent (dårligste automatiserede, fremhævet). Spredningen mellem bedste og dårligste automatiserede tjeneste er 4,8 gange.SAS-LIVE 8%-gulv0%5%10%15%Menneskelig CARTOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (kontrol)6,2%7,9%8,4%9,6%11,7%14,8%Sammensat WER, tre 60-min. sessioner, NIST sclite vs. menneskelig CART-kontrol
Den sammensatte rangering spænder over en 4,8× spredning mellem bedste og dårligste automatiserede tjeneste — bred nok til, at valget af platform i sig selv er en tilgængeligheds-beslutning, ikke et indkøbsdetalie. Den menneskelige CART-kontrol på 3,1% (ghost-søjle, øverst) sætter guldstandarden; røde fremhævninger markerer de bedste og dårligste automatiserede tjenester mod SAS-LIVE 8%-certificeringsgulvet.

Valget mellem to virksomhedsklass-konferenceplatforme kan betyde forskellen mellem en 6% og en 15% ordfehlrate. Det er ikke en værktøjsforskel. Det er en inklusionsforskel.


WER efter talerbetingelse

Sammensat WER skjuler teksturen. For at se, hvor hver tjeneste bryder ned, opdelte vi audioen i fire betingelser: rent enkelt-taler amerikansk engelsk, blandet-accent enkelt-taler, jargontætte passager og scriptet krydssamtale. De samme seks tjenester på det samme audio, opdelt efter betingelse:

GENNEMSNITLIG WER EFTER TALERBETINGELSE — AUTOMATISEREDE TJENESTER SAMLET
Rent US-engelsk
ca. 4,1%
Blandet accent
ca. 7,4%
Jargontæt
ca. 8,6%
Krydssamtale (2–3 talere)
ca. 42,6%

Diagrammet komprimerer overordnet fund til ét billede: accentvariation er en reel straf, jargon er en større, og overlappende tale er et stup. I krydssamtalepassagen faldt den dårligst præsterende automatiserede tjeneste til en WER over 60% — på det punkt er transskriptet, med SAS-LIVE-rubricens høflige formulering, “ikke kommunikativt pålideligt.”

4,1%
WER på rent US-engelsk enkelt-taler, automatiseret gennemsnit
42,6%
WER på scriptet krydssamtale, automatiseret gennemsnit
10,4×
forringelsesfaktor — rent til krydssamtale
Hvorfor krydssamtale bryder alle automatiserede tjenester

Kommercielle talegenkendelsespipelines antager én akustisk strøm pr. taler. Moderne systemer bruger diarisering til at tildele lydchunks til taler-ID’er, men diarisering kører efter segmentering — og under overlap fejler selve segmenteringen. Resultatet er én outputkanal, hvori to ytringer er sammenslået, og der produceres et transskript, der er grammatisk men faktuelt forkert med hensyn til, hvem der sagde hvad. En menneskelig CART-skriver løser dette ved at parafrasere én af de overlapende talere og præfikse den anden med et navnetag. Ingen implementeret automatiseret tjeneste gør dette i 2026.


Latenstid på ledningen

Latenstid blev målt som den forløbne tid mellem bølgeformtoppen af en talt stavelse og fremkomsten af det tilsvarende token i platformens undertekst-DOM, fanget via et høj-billedrate skærmoptagelse justeret mod lydbølgeformen. Medianlatenstid på tværs af de tre sessioner:

MEDIAN ENDE-TIL-ENDE-LATENSTID — LAVERE ER BEDRE
Google Meet
ca. 0,9 s
Microsoft Teams
ca. 1,4 s
Otter.ai
ca. 1,9 s
Webex
ca. 2,7 s
StreamText
ca. 3,8 s
Zoom (ikke-US-region)
ca. 5,6 s

Latenstid betyder noget, fordi samtalekorrigering har et vindue. Litteraturen inden for Deaf Studies om realtidsundertekster konvergerer på et brugbart loft på ca. to sekunder — ud over det kan en døv deltager ikke stille et opklarende spørgsmål, mens det stadig er relevant. Med den test klarer Google Meet, Teams og Otter linjen; Webex sidder på kanten; StreamText og Zoom gør det ikke.

StreamTexts højere latenstid er delvist arkitektonisk — den er operatørdrevet, så et menneskelig tastetrykke er i løkken — og delvis prisen for dens lavere WER på jargon. Zooms latenstid i vores opsætning er sværere at forsvare; på en US-region med cloud-undertekster aktiveret har tidligere offentliggjorte benchmarks rapporteret under tre sekunders medianer, så en 5,6 s-median i vores europæiske-region-tests afspejler regional infrastruktur frem for platformens loft.


Navne, jargon og ordlisteproblemet

Af de sytten navngivne enheder i manuskriptet var fem kodenavne opfundet til dette benchmark. De fem blev valgt til at være plausible produktnavne men ikke til stede i noget offentligt korpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De første tre er almindelige engelske ord; de to sidstnævnte er mindre almindelige. Vi forventede, at selv de bedste automatiserede tjenester ville kæmpe med de sjældne-ordforråd-sager, og det gjorde de.

01
Menneskelig CART-skriver (briefet med ordliste)
96% korrekt genkaldelse af kodenavngivne enheder
96%
02
Otter.ai (tilpasset ordforråd indlæst)
71% korrekt genkaldelse — tilpasset ordforråd gjorde forskellen
71%
03
Microsoft Teams (tilpasset ordforråd indlæst)
59% korrekt genkaldelse
59%
04
StreamText (operatør briefet)
52% korrekt genkaldelse — operatør havde ingen forhånds-ordliste
52%
05
Google Meet (ingen tilpasset-ordforråd-mulighed)
38% korrekt genkaldelse
38%
06
Zoom + Webex (ingen tilpasset-ordforråd-mulighed)
ca. 24% korrekt genkaldelse samlet — gættede fonetiske homofoner
24%

Lærdommen er operationel. Tilpasset ordforråd er den største enkeltpræcisionshåndtag, en mødearrangør kontrollerer. De tre tjenester, der accepterer en forhånds-indlæst ordliste (Otter, Teams og Azure-backede cloud-konfigurationer af Webex, som vi ikke testede), overgår pålideligt dem, der ikke gør. Hvor publikum inkluderer døve eller hørehæmmede deltagere, og mødet involverer jargon eller egentlige navne, er fraværet af et tilpasset-ordforråd-slot en meningsfuld tilgængelighedsbegrænsning, ikke en manglende praktisk funktion.

En bemærkning om SAS-LIVE-certificeringen

SAS-LIVE certificerer en undertekststjeneste mod et offentliggjort korpus og et offentliggjort WER-gulv (8% på skrivetidspunktet). Certificering er meningsfuld som et gulv — det betyder, at udbyderen har demonstreret, at dens pipeline kan nå 8% på det certificerende audio — men det er ikke et loft. Vores benchmark brugte et andet korpus (blandet-accent paneltale med krydssamtale), og de certificerede tjenester rangerede fra 6,2% (Otter) til 9,6% (Teams) på vores audio. Behandl SAS-LIVE som et indkøbsfilter, ikke som en erstatning for at teste på det audio, din organisation faktisk producerer.


Hjælpeteknologi-integration

WER måler, om transskriptet er korrekt. Hjælpeteknologi-integration måler, om en bruger med en skærmlæser, et brailledisplay eller et lavsyns-forstørrelsesglas faktisk kan konsumere transskriptet i realtid. De to er ikke det samme. Et perfekt nøjagtigt transskript gengivet i en DOM-node uden et aria-live-attribut er usynligt for en døvblind bruger på et brailledisplay, fordi hjælpeteknologien aldrig modtager signalet om, at ny tekst er dukket op.

Vi reviderede hver platforms undertekstpanel for fire hjælpeteknologi-integrationsegenskaber: live-regionmeddelelse, transskripteksport ved afslutning af møde, fokuserbare kontroller og tastaturgenvej til at slå undertekster til/fra. Matrixen:

01
Otter.ai webklient
Alle fire: aria-live polite · eksport · fokuserbar · tastaturskift
4 af 4
02
Google Meet
aria-live polite · ingen native eksport · fokuserbar · tastaturskift
3 af 4
03
Microsoft Teams
Ingen aria-live · eksport tilgængelig · fokuserbar · tastaturskift
3 af 4
04
StreamText-indlejring
Ingen aria-live · eksport tilgængelig · delvis fokus · ingen tastaturskift
2 af 4
05
Zoom desktopklient
Ingen aria-live · eksport tilgængelig · delvis fokus · tastaturskift
2 af 4
06
Cisco Webex
Ingen aria-live · eksport tilgængelig · ikke fokuserbar · ingen tastaturskift
1 af 4

Hjælpeteknologi-integrationskolonnen omordner rangeringen på interessante måder. Otter forbliver på førstepladsen; men Teams, der kom på fjerdepladsen på WER, klatrer til et uafgjort på andenpladsen på hjælpeteknologi-integration. Webex sidder i bunden på begge akser. En døvblind bruger på et brailledisplay betjenes bedst af Otter eller Google Meet i den nuværende produktgeneration.


Hvad den menneskelige CART-skriver stadig gør bedre

Kontrol-CART-skriveren overgik alle automatiserede tjenester på alle målte akser. WER 3,1% mod den bedste automatiserede 6,2%. Kodenavngenkaldelse 96% mod den bedste automatiserede 71%. Krydssamtale-WER ca. 9% — et tal, ingen automatiseret tjeneste kom inden for tredive procentpoint af.

Men den menneskelige fordel er ikke kun mekanisk. Adskillige redaktionelle adfærd er stadig unikke menneskelige. CART-skriveren parafraserede talere, der snublede, og bevarede mening på bekostning af bogstavelig verbatim — automatiserede tjenester enten dropper den snublede sætning eller gengiver den som nonsens. Hun mærkede talerskift med et navnepræfiks ved hvert talerstandsbytte — automatiserede tjenester interleaver uden attribution. Hun indsatte en afklarende note i firkantede parenteser, da en taler refererede til et slide, som det undertekstede publikum ikke kunne se. Ingen af disse træk vises i en WER-score, men hver er en del af, hvorfor et professionelt-CART-undertekstet møde føles tilgængeligt på en måde, som et automatiseret sjældent gør.

CART-skriver, post-session-debrief
Det sværeste øjeblik i et panel som dette er ikke en tyk accent eller et teknisk udtryk. Det er to personer, der taler på én gang, og en tredje, der kommer ind for at grine. Jeg vil parafrasere én, sætte den anden i kø og mærke latteren. Maskinen kan ikke beslutte, hvilken stemme den skal droppe, så den dropper begge ind i samme linje. Den linje er derefter teknisk undertekstet og praktisk talt ubrugelig.
— CART-skriver, session 02-debrief, 5. maj 2026

Benchmarket i kontekst

Overordnet fund er ikke, at én tjeneste vandt. Det er, at spredningen mellem bedste og dårligste er bred nok til, at platformvalg i sig selv er en tilgængeligheds-beslutning. En organisation, der valgte Webex, fordi det allerede var i indkøbsstakken, vil levere et transskript med mere end dobbelt fejlraten af en organisation, der valgte Otter — for den samme taler, det samme manuskript, det samme audio. Det er ikke en marginal forskel.

Det andet fund er, at automatisk undertekstning endnu ikke er en erstatning for en menneskelig CART-skriver under betingelser, hvor nøjagtighed faktisk betyder noget: juridiske procedurer, medicinske konsultationer, bestyrelsesmøder, klasseundervisning. 3,1% / 6,2%-kløften ser lille ud på et ark tal og føles stor for en døv deltager, der forsøger at følge en hurtigtgående samtale. Hvor indsatsen retfærdiggør omkostningen, er en menneskelig CART-skriver stadig guldstandarden, og SAS-LIVE-certificeringsrammen bevarer eksplicit dette hierarki.

Det tredje fund er operationelt. Tilpasset ordforråd er den mest underudnyttede tilgængeligheds-håndtag i mødeoperationer. Tre af de seks tjenester, vi testede, accepterer en forhånds-indlæst ordliste. Næsten ingen af de organisationer, vi talte med under udformningen af dette benchmark, brugte den funktion, selv om den var tilgængelig på det niveau, de allerede havde betalt for. At indlæse mødets egentlige navne og produktnavne i underteksttjenesten inden mødet er en fem-minutters opgave, der lukker det meste af det navngivne-enheds-gap.