Riktmärke för live-undertexters noggrannhet — sex tjänster, ett panel, en professionell CART-skrivare i bakre delen av rummet
Vi körde sex live-undertextningstjänster genom tre 60-minuters testsessioner: Otter.ai, Google Meet undertexter, Zoom undertexter, Microsoft Teams undertexter, Cisco Webex undertexter och StreamText (operatörsstyrt). Varje session bar samma förberedda manus — åtta paneltalare med blandade accenter (amerikanskt, brittiskt, indiskt engelska, bulgariskt, singaporianskt, franskt engelska), sjutton namngivna entiteter inklusive fem avsiktligt kodnamngivna produkter, två avsnitt med tät ingenjörsjargong och tre minuter av manusskrivet korstal. Varje session undertextades samtidigt av en professionell CART-skrivare på 220+ WPM, vars transkript tjänade som guldstandarden. Uppmätt sammansatt ordfelfrekvens (WER) spände från 3,1% (mänsklig CART) till 14,8% (den sämst presterande automatiserade tjänsten). Median ände-till-ände-latens spände från 0,9 s till 5,6 s. Två tjänster nådde SAS-LIVE-certifieringsgolvet för jargongåtergivning. De flesta gjorde det inte.
Vad riktmärket avslöjar
- 014,8×
Gapet mellan den mest noggranna automatiserade tjänsten och den minst noggranna är nästan fem gånger WER
Otter.ai redovisade en sammansatt WER på ca 6,2% över de tre sessionerna. Cisco Webex redovisade ca 14,8%. Det är inte ett marginellt gap — det är skillnaden mellan ett transkript en döv deltagare kan följa i realtid och ett transkript som kräver rekonstruktion efter mötet.
- 023,1%
En mänsklig CART-skrivare överträffar fortfarande varje automatiserad tjänst med bred marginal
Vår kontroll-CART-skrivare (certifierad RPR, 240 WPM ihållit) redovisade en sammansatt WER på ca 3,1% — ungefär hälften av felfrekvensen hos den bästa automatiserade tjänsten och en femtedel av den sämsta. Gapet vidgas ytterligare på namngivna entiteter och överlappande tal, där den mänskliga parafraserar elegant och maskinen gissar.
- 030,9 s
Medianlatens mellan tal och undertextning på skärm varierade från under en sekund till nästan sex
Google Meet redovisade den snabbaste medianlatensen på ca 0,9 s. Microsoft Teams körde på ca 1,4 s. Webex låg på ca 2,7 s. StreamText (operatörsstyrt) genomsnittade ca 3,8 s. Zooms molnsida undertexter, på en icke-US-region, nådde ca 5,6 s — tillräckligt långsamt för att en döv deltagare som försöker ställa en förtydligande fråga redan är två yttranden efter.
- 0447%
Kodnamngivna entiteter återgavs korrekt mindre än hälften av gångerna hos de automatiserade tjänsterna
Av de fem avsiktligt kodnamngivna produkterna i manuset (t.ex. “Halcyon”, “Bramble”, “Crosshatch”) återgav de automatiserade tjänsterna som grupp korrekt stavning i ca 47% av yttrandena. Den mänskliga CART-skrivaren återgav dem i 96% av yttrandena — för att vi försåg henne med ordlistan i förväg. Tre av sex tjänster accepterar ett anpassat vokabulär; de övriga tre gör det inte.
- 052 av 6
Endast två av sex tjänster tillkännager undertextuppdateringar till hjälpmedelsteknik via en korrekt ARIA live-region
Otter.ais webbklient och Google Meets undertextpanel exponerar båda uppdateringar via
aria-live=“polite”-regioner som en skärmläsaranvändare kan prenumerera på. Zoom, Teams, Webex och StreamText renderar undertexter i DOM-noder som inte tillkännages — vilket innebär att en dövblind användare på en punktskriftsdisplay inte får någon signal om att ny text har dykt upp. - 065,4×
Korstal försämrar noggrannheten mer än accent eller jargong gör
Under det triminuters manusade kortals-avsnittet hoppade den genomsnittliga automatiserade WER från ca 7,9% (enkeltalarsbaslinje) till ca 42,6% — en 5,4× försämring. Accentvariation ensam förflyttade WER med 1,8×; jargongtäthet med 2,1×. Tvåtalaröverlappar är det felläge som ingen kommersiell automatiserad tjänst hittills löst.
- 073
Tre leverantörer bär SAS-LIVE-certifiering; endast en av dem toppade vår noggrannhetsrankning
SAS-LIVE (Speech-Accessibility Standard for live captioning, ratificerat 2024) certifierar leverantörer mot ett publicerat WER-golv på 8% på ett kurerat korpus. Otter.ai, StreamText och en Microsoft Teams-konfiguration bär certifieringen vid tidpunkten för skrivandet. Otter.ai toppade vår sammansatta rankning; StreamText placerade trea; den certifierade Teams-konfigurationen placerade fyra.
Källa — Tre 60-minuters testsessioner inspelade 4–6 maj 2026 med åtta manusade paneltalare, identiskt manus över sessionerna, samtidig mänsklig CART-kontroll. Ljud routed via Loopback in i varje plattforms inbyggda undertextningsväg. Transkript diffade mot CART-kontrollen med NIST sclite för WER.
Metodik och testförhållanden
Ett live-undertextningsriktmärke står eller faller på kontrollen. Vi beställde tre identiska 60-minuterssessioner på tre separata dagar. Varje session följde samma förberedda manus: en moderatoröppning, fyra manusade talarturner på ungefär sju minuter vardera, två öppna diskussionsavsnitt totalt elva minuter, ett triminuters manusskrivet korstal-avsnitt med två och ibland tre talare som överlappade, och en avslutande summering.
Åtta fjärraanslutna paneldeltagare läste från manuset. De briefades om tempo men inte om testsyftet. Representerade accenter: allmänt amerikanskt engelska (två talare), mottagen uttal (en), indiskt engelska (en), bulgarienskt-accentuerat engelska (en), singaporianskt engelska (en), franskt-accentuerat engelska (en), skottskt engelska (en). Manuset inkluderade sjutton namngivna entiteter — tolv verkliga (FN-organ, lagstadgeciteringar, produktnamn från allmänhet) och fem fiktiva kodnamn uppfunna för detta riktmärke.
Varje session undertextades simultant genom alla sex tjänster. Ljud routades via en Loopback-aggregeringsenhet in i varje plattforms inbyggda undertextningsväg; inget tredjeparts taligenkänningslager infogades. Den professionella CART-skrivaren anslöt som deltagare på en dold linje och hennes transkript tidsstämplades mot samma ljud. Ordfelfrekvens beräknades mot CART-transkriptet med NIST sclite med skiftlägeskänslig poäng och standard substitutions-/infognings-/borttagningsmätvärden.
Den sammansatta rankningen
Sammansatt WER är det oviktade medelvärdet av per-sessions-WER över de tre sessionerna, poängsatt mot CART-kontrollen. Rubrikrankningen, lägsta WER först:
Valet mellan två företagsklassade konferensplattformar kan innebära skillnaden mellan en 6%-ig och en 15%-ig ordfelfrekvens. Det är inte en verktyg-skillnad. Det är en inklusionsskillnad.
WER efter talarförhållande
Sammansatt WER döljer texturen. För att se var varje tjänst brister partitionerade vi ljudet i fyra förhållanden: rent enstaka-talare amerikanskt engelska, blandad accent enstaka talare, jargongtäta avsnitt och manusskrivet korstal. Samma sex tjänster på samma ljud, uppdelade efter förhållande:
Diagrammet komprimerar huvud-resultatet till en enda bild: accentvariation är en verklig straffpoäng, jargong är en större, och överlappande tal är en klippa. I kortals-avsnittet föll den sämst presterande automatiserade tjänsten till en WER över 60% — vid vilken punkt transkriptet är, i SAS-LIVE-rubrikens artiga formulering, “inte kommunikativt tillförlitligt.”
Kommersiella taligenkänningspipelines förutsätter en akustisk ström per talare. Moderna system använder diarisering för att tilldela ljudchunkar till talar-ID, men diarisering körs efter segmentering — och under överlapp misslyckas segmenteringen i sig. Resultatet är en enda utmatningskanal i vilken två yttranden slås samman, vilket producerar ett transkript som är grammatiskt men faktamässigt fel om vem som sa vad. En mänsklig CART-skrivare löser detta genom att parafrasera en av de överlappande talarna och ge den andra ett namnprefix. Ingen driftsatt automatiserad tjänst gör detta 2026.
Latens på ledningen
Latens mättes som förfluten tid mellan vågformens topppunkt av en talad stavelse och utseendet av motsvarande token i plattformens undertextnings-DOM, fångad via en hög-bildfrekvens skärminspelning justerad mot ljudvågformen. Medianlatens över de tre sessionerna:
Latens spelar roll för att konversationsreparation har ett fönster. Dövstudiernas litteratur om realtidstextning konvergerar på ett användbart tak på ungefär två sekunder — bortom det kan en döv deltagare inte ställa en förtydligande fråga medan den fortfarande är relevant. Med det testet klarar Google Meet, Teams och Otter ribban; Webex sitter på kanten; StreamText och Zoom gör det inte.
StreamTexts högre latens är delvis arkitektonisk — det är operatörsstyrt, så ett mänskligt tangenttryck är i loopen — och delvis priset för dess lägre WER på jargong. Zooms latens i vår uppställning är svårare att försvara; på en US-region med molntextning aktiverat har tidigare publicerade riktmärken rapporterat under tre sekunders medianer, så en 5,6 s median i våra europeiska-region-tester återspeglar regional infrastruktur snarare än plattformens tak.
Namn, jargong och ordlistans problem
Av de sjutton namngivna entiteterna i manuset var fem kodnamn uppfunna för detta riktmärke. De fem valdes för att vara rimliga produktnamn men inte förekommande i något offentligt korpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De tre första är vanliga engelska ord; de två sistnämnda är mindre vanliga. Vi förväntade oss att även de bästa automatiserade tjänsterna skulle kämpa med fall av sällsynt vokabulär, och det gjorde de.
Lärdomen är operativ. Anpassat vokabulär är den enstaka största noggrannhetsspaken en mötesledare kontrollerar. De tre tjänster som accepterar en förinstallerad ordlista (Otter, Teams och de Azure-baserade molnkonfigurationerna av Webex som vi inte testade) överträffar tillförlitligt de som inte gör det. Där publiken inkluderar döva eller hörselskadade deltagare och mötet involverar jargong eller egennamn, är avsaknaden av ett anpassat-vokabulär-spår en meningsfull tillgänglighetsbegränsning, inte en saknad bekvämlighetsfunktion.
SAS-LIVE certifierar en undertextningsleverantör mot ett publicerat korpus och ett publicerat WER-golv (8% vid tidpunkten för skrivandet). Certifieringen är meningsfull som ett golv — det innebär att leverantören har demonstrerat att dess pipeline kan klara 8% på det certifierande ljudet — men det är inte ett tak. Vårt riktmärke använde ett annat korpus (blandad-accent paneltal med korstal), och de certifierade tjänsterna spände från 6,2% (Otter) till 9,6% (Teams) på vårt ljud. Behandla SAS-LIVE som ett upphandlingsfilter, inte som ersättning för testning på det ljud din organisation faktiskt producerar.
Integration med hjälpmedelsteknik
WER mäter om transkriptet är korrekt. AT-integration mäter om en användare med en skärmläsare, punktskriftsdisplay eller lågsynsförstoring faktiskt kan konsumera transkriptet i realtid. De två är inte desamma. Ett perfekt korrekt transkript renderat i en DOM-nod utan aria-live-attribut är osynligt för en dövblind användare på en punktskriftsdisplay, för att hjälpmedelstek nologin aldrig får signalen om att ny text har dykt upp.
Vi granskade varje plattforms undertextpanel för fyra AT-integrationsegenskaper: live-region-tillkännagivande, transkriptexport i slutet av mötet, fokuseringsbara kontroller och tangentbordsgenväg för att växla undertexter. Matrisen:
AT-integrationskolumnen ordnar om rankningen på intressanta sätt. Otter förblir på förstaplats; men Teams, som placerade fyra på WER, klättrar till en delad andraplats på AT-integration. Webex sitter längst ner på båda axlarna. En dövblind användare på en punktskriftsdisplay betjänas bäst av Otter eller Google Meet i den aktuella produktgenerationen.
Vad den mänskliga CART-skrivaren fortfarande gör bättre
Kontroll-CART-skrivaren överträffade varje automatiserad tjänst på varje mätt axel. WER 3,1% mot det bästa automatiserade 6,2%. Kodnamns-återgivning 96% mot det bästa automatiserade 71%. Korstal WER ungefär 9% — ett antal ingen automatiserad tjänst kom inom trettio procentenheter av.
Men den mänskliga fördelen är inte bara mekanisk. Flera redaktionella beteenden är fortfarande unikt mänskliga. CART-skrivaren parafraserade talare som snubblade och bevarade mening på bekostnad av ordagrann verbatim — automatiserade tjänster antingen tappar den snubblade frasen eller renderar den som nonsens. Hon taggade talarturner med ett namnprefix vid varje taländ — automatiserade tjänster interfogar utan attribution. Hon infogade en förtydligande notering i hakparentes när en talare refererade till en bild som den undertextade publiken inte kunde se. Inget av dessa rörelser syns i ett WER-poäng, men var och en är en del av varför ett professionellt-CART-textat möte känns tillgängligt på ett sätt som ett automatiserat sällan gör.
Riktmärket i sammanhang
Huvud-resultatet är inte att en tjänst vann. Det är att spridningen mellan bästa och sämsta är tillräckligt bred för att plattformsvalet i sig är ett tillgänglighetsbeslut. En organisation som standardiserade på Webex för att det redan fanns i upphandlingsstacken levererar ett transkript med mer än dubbel felfrekvens jämfört med en organisation som standardiserade på Otter — för samma talare, samma manus, samma ljud. Det är inte en marginell skillnad.
Det andra resultatet är att automatisk textning ännu inte är en ersättning för en mänsklig CART-skrivare under förhållanden där noggrannheten faktiskt spelar roll: juridiska förfaranden, medicinska konsultationer, styrelsemöten, klassrumsundervisning. Gapet 3,1% / 6,2% ser litet ut på ett ark siffror och känns stort för en döv deltagare som försöker följa en snabbt rörlig konversation. Där insatserna motiverar kostnaden är en mänsklig CART-skrivare fortfarande guldstandarden, och SAS-LIVE-certifieringsramverket bevarar uttryckligen den hierarkin.
Det tredje resultatet är operativt. Anpassat vokabulär är den mest underutnyttjade tillgänglighetsspaken inom mötesoperationer. Tre av de sex tjänsterna vi testade accepterar en förinstallerad ordlista. Nästan ingen av de organisationer vi talade med under utformningen av detta riktmärke använde den funktionen, ens där den var tillgänglig på den nivå de redan hade betalat för. Att ladda mötets egennamn och produktnamn in i undertextningstjänsten innan mötet är en fem-minuters uppgift som stänger det mesta av gapet för namngivna entiteter.