Live-undertekst nøjagtighedsbenchmark — seks tjenester, ét panel, én professionel CART-skriver bagerst i lokalet
Vi kørte seks live-underteksttjenester igennem tre 60-minutters testsessioner: Otter.ai, Google Meet-undertekster, Zoom-undertekster, Microsoft Teams-undertekster, Cisco Webex-undertekster og StreamText (operatørdrevet). Hver session bar det samme forberedte manuskript — otte paneltalere med blandede accenter (amerikansk, britisk, indisk engelsk, bulgarsk, singaporeansk, fransk), sytten navngivne enheder herunder fem bevidst kodenavngivne produkter, to passager med tæt ingeniørjargon og tre minutters scriptet krydssamtale. Hver session blev simultant undertekstet af en professionel CART-skriver ved 220+ WPM, hvis transskript tjente som guldstandarden. Målt sammensat ordfehlrate (WER) varierede fra 3,1% (menneskelig CART) til 14,8% (den dårligst præsterende automatiserede tjeneste). Median ende-til-ende-latenstid varierede fra 0,9 s til 5,6 s. To tjenester nåede SAS-LIVE-certificeringsgulvet på jargongenkaldelse. De fleste gjorde ikke.
Hvad benchmarket afslører
- 014,8×
Kløften mellem den mest nøjagtige automatiserede tjeneste og den mindst nøjagtige er næsten fem gange WER
Otter.ai postede en sammensat WER på ca. 6,2% på tværs af de tre sessioner. Cisco Webex postede ca. 14,8%. Det er ikke en marginal spredning — det er forskellen mellem et transskript, som en døv deltager kan følge i realtid, og et transskript, der kræver rekonstruktion efter mødet.
- 023,1%
En menneskelig CART-skriver overgår stadig alle automatiserede tjenester med stor margin
Vores kontrol-CART-skriver (certificeret RPR, 240 WPM vedvarende) postede en sammensat WER på ca. 3,1% — ca. halvdelen af fejlraten for den bedste automatiserede tjeneste og en femtedel af den dårligste. Kløften udvides yderligere på navngivne enheder og overlappende tale, hvor mennesket parafraserer elegant og maskinen gætter.
- 030,9 s
Medianlatenstid mellem tale og undertekst på skærmen varierede fra under ét sekund til næsten seks
Google Meet postede den hurtigste medianlatenstid på ca. 0,9 s. Microsoft Teams kørte på ca. 1,4 s. Webex lå på ca. 2,7 s. StreamText (operatørdrevet) gennemsnitliggjorde ca. 3,8 s. Zooms cloud-side undertekster på en ikke-US-region ramte ca. 5,6 s — langsomt nok til, at en døv deltager, der forsøger at stille et opklarende spørgsmål, allerede er to ytringer bagud.
- 0447%
Kodenavngivne enheder blev gendannet korrekt under halvdelen af gangene på tværs af de automatiserede tjenester
Af de fem bevidst kodenavngivne produkter i manuskriptet (f.eks. “Halcyon”, “Bramble”, “Crosshatch”) gendannede de automatiserede tjenester som gruppe den korrekte stavning i ca. 47% af ytringerne. Den menneskelige CART-skriver gendannede dem i 96% af ytringerne — fordi vi briefede hende med ordlisten på forhånd. Tre af de seks tjenester accepterer et tilpasset ordforråd; de andre tre gør ikke.
- 052 af 6
Kun to af de seks tjenester annoncerer undertekstopdateringer til hjælpeteknologi via en korrekt ARIA live-region
Otter.ai’s webklient og Google Meets undertekstpanel eksponerer begge opdateringer via
aria-live=“polite”-regioner, som en skærmlæserbruger kan abonnere på. Zoom, Teams, Webex og StreamText gengiver undertekster i DOM-noder, der ikke annonceres — hvilket betyder, at en døvblind bruger på et brailledisplay ikke modtager noget signal om, at ny tekst er dukket op. - 065,4×
Krydssamtale forringer nøjagtighed mere end accent eller jargon gør
Under den tre minutter lange scriptede krydssamtalepassage steg den gennemsnitlige automatiserede WER fra ca. 7,9% (enkelt-taler-baseline) til ca. 42,6% — en 5,4× forringelse. Accentvariation alene bevægede WER med 1,8×; jargontæthed med 2,1×. To-taler-overlap er den fejltilstand, ingen kommerciel automatiseret tjeneste endnu har løst.
- 073
Tre udbydere har SAS-LIVE-certificering; kun én af dem toppede vores nøjagtighedsrangering
SAS-LIVE (Speech-Accessibility Standard for live captioning, ratificeret 2024) certificerer udbydere mod et offentliggjort WER-gulv på 8% på et kurateret korpus. Otter.ai, StreamText og én Microsoft Teams-konfiguration har certificeringen på skrivetidspunktet. Otter.ai toppede vores sammensatte rangering; StreamText kom på tredjepladsen; den certificerede Teams-konfiguration kom på fjerdepladsen.
Kilde — Tre 60-minutters testsessioner optaget 4.–6. maj 2026 med otte scriptede paneltalere, identisk manuskript på tværs af sessioner, simultant menneskelig CART-kontrol. Audio rutet via Loopback ind i hver platforms native undertekststi. Transskripter afviget mod CART-kontrollen ved hjælp af NIST sclite for WER.
Metodologi og testbetingelser
Et live-undertekst-benchmark står eller falder på kontrollen. Vi bestilte tre identiske 60-minutters sessioner på tre separate dage. Hver session fulgte det samme forberedte manuskript: en moderatoråbning, fire scriptede talerture på ca. syv minutter hver, to åbne diskussionspassager med i alt elleve minutter, en tre minutter lang scriptet krydssamtale med to og lejlighedsvis tre overlapende talere og en afsluttende opsummering.
Otte fjernpanelister læste fra manuskriptet. De var briefet om tempo men ikke om testformålet. Repræsenterede accenter: General American (to talere), Received Pronunciation (én), indisk engelsk (én), bulgarsk-accentueret engelsk (én), singaporeansk engelsk (én), franskaccentueret engelsk (én), skotsk engelsk (én). Manuskriptet inkluderede sytten navngivne enheder — tolv rigtige (FN-agenturer, lovcitatreferencer, produktnavne fra det offentlige domæne) og fem fiktive kodenavne opfundet til dette benchmark.
Hver session blev simultant undertekstet igennem alle seks tjenester. Audio blev rutet via en Loopback-aggregatenhed ind i hver platforms native undertekststi; intet tredjeparts talegenkendelseslaglag blev indsat. Den professionelle CART-skriver deltog som en deltager på en skjult linje, og hendes transskript var tidsstemplet mod det samme audio. Ordfehlraten blev beregnet mod CART-transskriptet ved hjælp af NIST sclite med store/små bogstaver-ufølsom scoring og standard substitutions/indsættelses/slettings-vægte.
Den sammensatte rangering
Sammensat WER er det uvægtede gennemsnit af per-session WER på tværs af de tre sessioner, scoret mod CART-kontrollen. Overordnet rangering, laveste WER først:
Valget mellem to virksomhedsklass-konferenceplatforme kan betyde forskellen mellem en 6% og en 15% ordfehlrate. Det er ikke en værktøjsforskel. Det er en inklusionsforskel.
WER efter talerbetingelse
Sammensat WER skjuler teksturen. For at se, hvor hver tjeneste bryder ned, opdelte vi audioen i fire betingelser: rent enkelt-taler amerikansk engelsk, blandet-accent enkelt-taler, jargontætte passager og scriptet krydssamtale. De samme seks tjenester på det samme audio, opdelt efter betingelse:
Diagrammet komprimerer overordnet fund til ét billede: accentvariation er en reel straf, jargon er en større, og overlappende tale er et stup. I krydssamtalepassagen faldt den dårligst præsterende automatiserede tjeneste til en WER over 60% — på det punkt er transskriptet, med SAS-LIVE-rubricens høflige formulering, “ikke kommunikativt pålideligt.”
Kommercielle talegenkendelsespipelines antager én akustisk strøm pr. taler. Moderne systemer bruger diarisering til at tildele lydchunks til taler-ID’er, men diarisering kører efter segmentering — og under overlap fejler selve segmenteringen. Resultatet er én outputkanal, hvori to ytringer er sammenslået, og der produceres et transskript, der er grammatisk men faktuelt forkert med hensyn til, hvem der sagde hvad. En menneskelig CART-skriver løser dette ved at parafrasere én af de overlapende talere og præfikse den anden med et navnetag. Ingen implementeret automatiseret tjeneste gør dette i 2026.
Latenstid på ledningen
Latenstid blev målt som den forløbne tid mellem bølgeformtoppen af en talt stavelse og fremkomsten af det tilsvarende token i platformens undertekst-DOM, fanget via et høj-billedrate skærmoptagelse justeret mod lydbølgeformen. Medianlatenstid på tværs af de tre sessioner:
Latenstid betyder noget, fordi samtalekorrigering har et vindue. Litteraturen inden for Deaf Studies om realtidsundertekster konvergerer på et brugbart loft på ca. to sekunder — ud over det kan en døv deltager ikke stille et opklarende spørgsmål, mens det stadig er relevant. Med den test klarer Google Meet, Teams og Otter linjen; Webex sidder på kanten; StreamText og Zoom gør det ikke.
StreamTexts højere latenstid er delvist arkitektonisk — den er operatørdrevet, så et menneskelig tastetrykke er i løkken — og delvis prisen for dens lavere WER på jargon. Zooms latenstid i vores opsætning er sværere at forsvare; på en US-region med cloud-undertekster aktiveret har tidligere offentliggjorte benchmarks rapporteret under tre sekunders medianer, så en 5,6 s-median i vores europæiske-region-tests afspejler regional infrastruktur frem for platformens loft.
Navne, jargon og ordlisteproblemet
Af de sytten navngivne enheder i manuskriptet var fem kodenavne opfundet til dette benchmark. De fem blev valgt til at være plausible produktnavne men ikke til stede i noget offentligt korpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De første tre er almindelige engelske ord; de to sidstnævnte er mindre almindelige. Vi forventede, at selv de bedste automatiserede tjenester ville kæmpe med de sjældne-ordforråd-sager, og det gjorde de.
Lærdommen er operationel. Tilpasset ordforråd er den største enkeltpræcisionshåndtag, en mødearrangør kontrollerer. De tre tjenester, der accepterer en forhånds-indlæst ordliste (Otter, Teams og Azure-backede cloud-konfigurationer af Webex, som vi ikke testede), overgår pålideligt dem, der ikke gør. Hvor publikum inkluderer døve eller hørehæmmede deltagere, og mødet involverer jargon eller egentlige navne, er fraværet af et tilpasset-ordforråd-slot en meningsfuld tilgængelighedsbegrænsning, ikke en manglende praktisk funktion.
SAS-LIVE certificerer en undertekststjeneste mod et offentliggjort korpus og et offentliggjort WER-gulv (8% på skrivetidspunktet). Certificering er meningsfuld som et gulv — det betyder, at udbyderen har demonstreret, at dens pipeline kan nå 8% på det certificerende audio — men det er ikke et loft. Vores benchmark brugte et andet korpus (blandet-accent paneltale med krydssamtale), og de certificerede tjenester rangerede fra 6,2% (Otter) til 9,6% (Teams) på vores audio. Behandl SAS-LIVE som et indkøbsfilter, ikke som en erstatning for at teste på det audio, din organisation faktisk producerer.
Hjælpeteknologi-integration
WER måler, om transskriptet er korrekt. Hjælpeteknologi-integration måler, om en bruger med en skærmlæser, et brailledisplay eller et lavsyns-forstørrelsesglas faktisk kan konsumere transskriptet i realtid. De to er ikke det samme. Et perfekt nøjagtigt transskript gengivet i en DOM-node uden et aria-live-attribut er usynligt for en døvblind bruger på et brailledisplay, fordi hjælpeteknologien aldrig modtager signalet om, at ny tekst er dukket op.
Vi reviderede hver platforms undertekstpanel for fire hjælpeteknologi-integrationsegenskaber: live-regionmeddelelse, transskripteksport ved afslutning af møde, fokuserbare kontroller og tastaturgenvej til at slå undertekster til/fra. Matrixen:
Hjælpeteknologi-integrationskolonnen omordner rangeringen på interessante måder. Otter forbliver på førstepladsen; men Teams, der kom på fjerdepladsen på WER, klatrer til et uafgjort på andenpladsen på hjælpeteknologi-integration. Webex sidder i bunden på begge akser. En døvblind bruger på et brailledisplay betjenes bedst af Otter eller Google Meet i den nuværende produktgeneration.
Hvad den menneskelige CART-skriver stadig gør bedre
Kontrol-CART-skriveren overgik alle automatiserede tjenester på alle målte akser. WER 3,1% mod den bedste automatiserede 6,2%. Kodenavngenkaldelse 96% mod den bedste automatiserede 71%. Krydssamtale-WER ca. 9% — et tal, ingen automatiseret tjeneste kom inden for tredive procentpoint af.
Men den menneskelige fordel er ikke kun mekanisk. Adskillige redaktionelle adfærd er stadig unikke menneskelige. CART-skriveren parafraserede talere, der snublede, og bevarede mening på bekostning af bogstavelig verbatim — automatiserede tjenester enten dropper den snublede sætning eller gengiver den som nonsens. Hun mærkede talerskift med et navnepræfiks ved hvert talerstandsbytte — automatiserede tjenester interleaver uden attribution. Hun indsatte en afklarende note i firkantede parenteser, da en taler refererede til et slide, som det undertekstede publikum ikke kunne se. Ingen af disse træk vises i en WER-score, men hver er en del af, hvorfor et professionelt-CART-undertekstet møde føles tilgængeligt på en måde, som et automatiseret sjældent gør.
Benchmarket i kontekst
Overordnet fund er ikke, at én tjeneste vandt. Det er, at spredningen mellem bedste og dårligste er bred nok til, at platformvalg i sig selv er en tilgængeligheds-beslutning. En organisation, der valgte Webex, fordi det allerede var i indkøbsstakken, vil levere et transskript med mere end dobbelt fejlraten af en organisation, der valgte Otter — for den samme taler, det samme manuskript, det samme audio. Det er ikke en marginal forskel.
Det andet fund er, at automatisk undertekstning endnu ikke er en erstatning for en menneskelig CART-skriver under betingelser, hvor nøjagtighed faktisk betyder noget: juridiske procedurer, medicinske konsultationer, bestyrelsesmøder, klasseundervisning. 3,1% / 6,2%-kløften ser lille ud på et ark tal og føles stor for en døv deltager, der forsøger at følge en hurtigtgående samtale. Hvor indsatsen retfærdiggør omkostningen, er en menneskelig CART-skriver stadig guldstandarden, og SAS-LIVE-certificeringsrammen bevarer eksplicit dette hierarki.
Det tredje fund er operationelt. Tilpasset ordforråd er den mest underudnyttede tilgængeligheds-håndtag i mødeoperationer. Tre af de seks tjenester, vi testede, accepterer en forhånds-indlæst ordliste. Næsten ingen af de organisationer, vi talte med under udformningen af dette benchmark, brugte den funktion, selv om den var tilgængelig på det niveau, de allerede havde betalt for. At indlæse mødets egentlige navne og produktnavne i underteksttjenesten inden mødet er en fem-minutters opgave, der lukker det meste af det navngivne-enheds-gap.