Redaktionell · Riktmärke-dossier · Live-textning

Riktmärke för live-undertexters noggrannhet — sex tjänster, ett panel, en professionell CART-skrivare i bakre delen av rummet

Vi körde sex live-undertextningstjänster genom tre 60-minuters testsessioner: Otter.ai, Google Meet undertexter, Zoom undertexter, Microsoft Teams undertexter, Cisco Webex undertexter och StreamText (operatörsstyrt). Varje session bar samma förberedda manus — åtta paneltalare med blandade accenter (amerikanskt, brittiskt, indiskt engelska, bulgariskt, singaporianskt, franskt engelska), sjutton namngivna entiteter inklusive fem avsiktligt kodnamngivna produkter, två avsnitt med tät ingenjörsjargong och tre minuter av manusskrivet korstal. Varje session undertextades samtidigt av en professionell CART-skrivare på 220+ WPM, vars transkript tjänade som guldstandarden. Uppmätt sammansatt ordfelfrekvens (WER) spände från 3,1% (mänsklig CART) till 14,8% (den sämst presterande automatiserade tjänsten). Median ände-till-ände-latens spände från 0,9 s till 5,6 s. Två tjänster nådde SAS-LIVE-certifieringsgolvet för jargongåtergivning. De flesta gjorde det inte.

Resultat · Ärendefil LC-BENCH-2607 poster · hämtade från 3 sessioner × 6 tjänster + 1 mänsklig CART-kontroll

Vad riktmärket avslöjar

  1. 014,8×

    Gapet mellan den mest noggranna automatiserade tjänsten och den minst noggranna är nästan fem gånger WER

    Otter.ai redovisade en sammansatt WER på ca 6,2% över de tre sessionerna. Cisco Webex redovisade ca 14,8%. Det är inte ett marginellt gap — det är skillnaden mellan ett transkript en döv deltagare kan följa i realtid och ett transkript som kräver rekonstruktion efter mötet.

  2. 023,1%

    En mänsklig CART-skrivare överträffar fortfarande varje automatiserad tjänst med bred marginal

    Vår kontroll-CART-skrivare (certifierad RPR, 240 WPM ihållit) redovisade en sammansatt WER på ca 3,1% — ungefär hälften av felfrekvensen hos den bästa automatiserade tjänsten och en femtedel av den sämsta. Gapet vidgas ytterligare på namngivna entiteter och överlappande tal, där den mänskliga parafraserar elegant och maskinen gissar.

  3. 030,9 s

    Medianlatens mellan tal och undertextning på skärm varierade från under en sekund till nästan sex

    Google Meet redovisade den snabbaste medianlatensen på ca 0,9 s. Microsoft Teams körde på ca 1,4 s. Webex låg på ca 2,7 s. StreamText (operatörsstyrt) genomsnittade ca 3,8 s. Zooms molnsida undertexter, på en icke-US-region, nådde ca 5,6 s — tillräckligt långsamt för att en döv deltagare som försöker ställa en förtydligande fråga redan är två yttranden efter.

  4. 0447%

    Kodnamngivna entiteter återgavs korrekt mindre än hälften av gångerna hos de automatiserade tjänsterna

    Av de fem avsiktligt kodnamngivna produkterna i manuset (t.ex. “Halcyon”, “Bramble”, “Crosshatch”) återgav de automatiserade tjänsterna som grupp korrekt stavning i ca 47% av yttrandena. Den mänskliga CART-skrivaren återgav dem i 96% av yttrandena — för att vi försåg henne med ordlistan i förväg. Tre av sex tjänster accepterar ett anpassat vokabulär; de övriga tre gör det inte.

  5. 052 av 6

    Endast två av sex tjänster tillkännager undertextuppdateringar till hjälpmedelsteknik via en korrekt ARIA live-region

    Otter.ais webbklient och Google Meets undertextpanel exponerar båda uppdateringar via aria-live=“polite”-regioner som en skärmläsaranvändare kan prenumerera på. Zoom, Teams, Webex och StreamText renderar undertexter i DOM-noder som inte tillkännages — vilket innebär att en dövblind användare på en punktskriftsdisplay inte får någon signal om att ny text har dykt upp.

  6. 065,4×

    Korstal försämrar noggrannheten mer än accent eller jargong gör

    Under det triminuters manusade kortals-avsnittet hoppade den genomsnittliga automatiserade WER från ca 7,9% (enkeltalarsbaslinje) till ca 42,6% — en 5,4× försämring. Accentvariation ensam förflyttade WER med 1,8×; jargongtäthet med 2,1×. Tvåtalaröverlappar är det felläge som ingen kommersiell automatiserad tjänst hittills löst.

  7. 073

    Tre leverantörer bär SAS-LIVE-certifiering; endast en av dem toppade vår noggrannhetsrankning

    SAS-LIVE (Speech-Accessibility Standard for live captioning, ratificerat 2024) certifierar leverantörer mot ett publicerat WER-golv på 8% på ett kurerat korpus. Otter.ai, StreamText och en Microsoft Teams-konfiguration bär certifieringen vid tidpunkten för skrivandet. Otter.ai toppade vår sammansatta rankning; StreamText placerade trea; den certifierade Teams-konfigurationen placerade fyra.

Källa — Tre 60-minuters testsessioner inspelade 4–6 maj 2026 med åtta manusade paneltalare, identiskt manus över sessionerna, samtidig mänsklig CART-kontroll. Ljud routed via Loopback in i varje plattforms inbyggda undertextningsväg. Transkript diffade mot CART-kontrollen med NIST sclite för WER.


Metodik och testförhållanden

Ett live-undertextningsriktmärke står eller faller på kontrollen. Vi beställde tre identiska 60-minuterssessioner på tre separata dagar. Varje session följde samma förberedda manus: en moderatoröppning, fyra manusade talarturner på ungefär sju minuter vardera, två öppna diskussionsavsnitt totalt elva minuter, ett triminuters manusskrivet korstal-avsnitt med två och ibland tre talare som överlappade, och en avslutande summering.

Åtta fjärraanslutna paneldeltagare läste från manuset. De briefades om tempo men inte om testsyftet. Representerade accenter: allmänt amerikanskt engelska (två talare), mottagen uttal (en), indiskt engelska (en), bulgarienskt-accentuerat engelska (en), singaporianskt engelska (en), franskt-accentuerat engelska (en), skottskt engelska (en). Manuset inkluderade sjutton namngivna entiteter — tolv verkliga (FN-organ, lagstadgeciteringar, produktnamn från allmänhet) och fem fiktiva kodnamn uppfunna för detta riktmärke.

Varje session undertextades simultant genom alla sex tjänster. Ljud routades via en Loopback-aggregeringsenhet in i varje plattforms inbyggda undertextningsväg; inget tredjeparts taligenkänningslager infogades. Den professionella CART-skrivaren anslöt som deltagare på en dold linje och hennes transkript tidsstämplades mot samma ljud. Ordfelfrekvens beräknades mot CART-transkriptet med NIST sclite med skiftlägeskänslig poäng och standard substitutions-/infognings-/borttagningsmätvärden.

01ManusslåsningIdentiskt 60-minutersmanus över tre sessioner, paneldeltagarna fick inte veta vad som mättes.
02LjudroutingLoopback-aggregeringsenhet matade varje plattforms inbyggda undertextningsväg simultant.
03Mänsklig kontrollRPR-certifierad CART-skrivare anslöt gömd, höll 240 WPM, tjänade som guldstandard.
04PoängsättningNIST sclite, skiftlägeskänslig, standard mätvärden. Latens mätt via vågform-till-DOM-tidsstämpel.
3
testsessioner
8
paneltalare
17
namngivna entiteter
180
totala undertextminuter per tjänst

Den sammansatta rankningen

Sammansatt WER är det oviktade medelvärdet av per-sessions-WER över de tre sessionerna, poängsatt mot CART-kontrollen. Rubrikrankningen, lägsta WER först:

01
Otter.ai (Pro-nivå, anpassat vokabulär inläst)
SAS-LIVE-certifierad · webbklient · ca 6,2% sammansatt WER
6,2%
02
Google Meet undertexter (Workspace Business)
Ej SAS-LIVE-certifierad · ca 7,9% sammansatt WER
7,9%
03
StreamText (operatörsstyrd, mänskligt korrigerad)
SAS-LIVE-certifierad · ca 8,4% sammansatt WER
8,4%
04
Microsoft Teams (med anpassat vokabulär aktiverat)
SAS-LIVE-certifierad konfiguration · ca 9,6% sammansatt WER
9,6%
05
Zoom (molntextning, icke-US-region)
Ej SAS-LIVE-certifierad · ca 11,7% sammansatt WER
11,7%
06
Cisco Webex undertexter (standardkonfiguration)
Ej SAS-LIVE-certifierad · ca 14,8% sammansatt WER
14,8%
Sammansatt ordfelfrekvens per live-undertextningstjänst under tre 60-minuters testsessionerEtt horisontellt stapeldiagram av sammansatt ordfelfrekvens. Från lägst till högst: mänsklig CART-kontroll 3,1 procent (guldstandardbaslinje, visas som referens); Otter.ai 6,2 procent (bästa automatiserade, markerad); Google Meet 7,9 procent; StreamText 8,4 procent; Microsoft Teams 9,6 procent; Zoom 11,7 procent; Cisco Webex 14,8 procent (sämsta automatiserade, markerad). Spridningen mellan bästa och sämsta automatiserade tjänst är 4,8 gånger.SAS-LIVE 8%-golv0%5%10%15%Mänsklig CARTOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (kontroll)6,2%7,9%8,4%9,6%11,7%14,8%Sammansatt WER, tre 60-min-sessioner, NIST sclite vs. mänsklig CART-kontroll
Den sammansatta rankningen sträcker sig över en 4,8× spridning mellan bästa och sämsta automatiserade tjänst — tillräckligt bred för att plattformsvalet i sig är ett tillgänglighetsbeslut, inte en upphandlingsdetalj. Den mänskliga CART-kontrollen på 3,1% (ghost-stapel, toppen) sätter guldstandarden; rött markerar de bästa och sämsta automatiserade tjänsterna mot SAS-LIVE 8%-certifieringsgolvet.

Valet mellan två företagsklassade konferensplattformar kan innebära skillnaden mellan en 6%-ig och en 15%-ig ordfelfrekvens. Det är inte en verktyg-skillnad. Det är en inklusionsskillnad.


WER efter talarförhållande

Sammansatt WER döljer texturen. För att se var varje tjänst brister partitionerade vi ljudet i fyra förhållanden: rent enstaka-talare amerikanskt engelska, blandad accent enstaka talare, jargongtäta avsnitt och manusskrivet korstal. Samma sex tjänster på samma ljud, uppdelade efter förhållande:

GENOMSNITTLIG WER EFTER TALARFÖRHÅLLANDE — AUTOMATISERADE TJÄNSTER POOLADE
Rent US-engelska
ca 4,1%
Blandad accent
ca 7,4%
Jargongtät
ca 8,6%
Korstal (2–3 talare)
ca 42,6%

Diagrammet komprimerar huvud-resultatet till en enda bild: accentvariation är en verklig straffpoäng, jargong är en större, och överlappande tal är en klippa. I kortals-avsnittet föll den sämst presterande automatiserade tjänsten till en WER över 60% — vid vilken punkt transkriptet är, i SAS-LIVE-rubrikens artiga formulering, “inte kommunikativt tillförlitligt.”

4,1%
WER på rent US-engelska enstaka talare, automatiserat genomsnitt
42,6%
WER på manusskrivet korstal, automatiserat genomsnitt
10,4×
försämringsfaktor — rent till korstal
Varför korstal bryter varje automatiserad tjänst

Kommersiella taligenkänningspipelines förutsätter en akustisk ström per talare. Moderna system använder diarisering för att tilldela ljudchunkar till talar-ID, men diarisering körs efter segmentering — och under överlapp misslyckas segmenteringen i sig. Resultatet är en enda utmatningskanal i vilken två yttranden slås samman, vilket producerar ett transkript som är grammatiskt men faktamässigt fel om vem som sa vad. En mänsklig CART-skrivare löser detta genom att parafrasera en av de överlappande talarna och ge den andra ett namnprefix. Ingen driftsatt automatiserad tjänst gör detta 2026.


Latens på ledningen

Latens mättes som förfluten tid mellan vågformens topppunkt av en talad stavelse och utseendet av motsvarande token i plattformens undertextnings-DOM, fångad via en hög-bildfrekvens skärminspelning justerad mot ljudvågformen. Medianlatens över de tre sessionerna:

MEDIAN ÄNDE-TILL-ÄNDE-LATENS — LÄGRE ÄR BÄTTRE
Google Meet
ca 0,9 s
Microsoft Teams
ca 1,4 s
Otter.ai
ca 1,9 s
Webex
ca 2,7 s
StreamText
ca 3,8 s
Zoom (icke-US-region)
ca 5,6 s

Latens spelar roll för att konversationsreparation har ett fönster. Dövstudiernas litteratur om realtidstextning konvergerar på ett användbart tak på ungefär två sekunder — bortom det kan en döv deltagare inte ställa en förtydligande fråga medan den fortfarande är relevant. Med det testet klarar Google Meet, Teams och Otter ribban; Webex sitter på kanten; StreamText och Zoom gör det inte.

StreamTexts högre latens är delvis arkitektonisk — det är operatörsstyrt, så ett mänskligt tangenttryck är i loopen — och delvis priset för dess lägre WER på jargong. Zooms latens i vår uppställning är svårare att försvara; på en US-region med molntextning aktiverat har tidigare publicerade riktmärken rapporterat under tre sekunders medianer, så en 5,6 s median i våra europeiska-region-tester återspeglar regional infrastruktur snarare än plattformens tak.


Namn, jargong och ordlistans problem

Av de sjutton namngivna entiteterna i manuset var fem kodnamn uppfunna för detta riktmärke. De fem valdes för att vara rimliga produktnamn men inte förekommande i något offentligt korpus: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. De tre första är vanliga engelska ord; de två sistnämnda är mindre vanliga. Vi förväntade oss att även de bästa automatiserade tjänsterna skulle kämpa med fall av sällsynt vokabulär, och det gjorde de.

01
Mänsklig CART-skrivare (briefad med ordlista)
96% korrekt återgivning av kodnamngivna entiteter
96%
02
Otter.ai (anpassat vokabulär inläst)
71% korrekt återgivning — anpassat vokabulär gjorde skillnaden
71%
03
Microsoft Teams (anpassat vokabulär inläst)
59% korrekt återgivning
59%
04
StreamText (operatör briefad)
52% korrekt återgivning — operatören hade ingen förhandsordlista
52%
05
Google Meet (inget alternativ för anpassat vokabulär)
38% korrekt återgivning
38%
06
Zoom + Webex (inget alternativ för anpassat vokabulär)
ca 24% korrekt återgivning poolad — gissade fonetiska homofoner
24%

Lärdomen är operativ. Anpassat vokabulär är den enstaka största noggrannhetsspaken en mötesledare kontrollerar. De tre tjänster som accepterar en förinstallerad ordlista (Otter, Teams och de Azure-baserade molnkonfigurationerna av Webex som vi inte testade) överträffar tillförlitligt de som inte gör det. Där publiken inkluderar döva eller hörselskadade deltagare och mötet involverar jargong eller egennamn, är avsaknaden av ett anpassat-vokabulär-spår en meningsfull tillgänglighetsbegränsning, inte en saknad bekvämlighetsfunktion.

En notering om SAS-LIVE-certifieringen

SAS-LIVE certifierar en undertextningsleverantör mot ett publicerat korpus och ett publicerat WER-golv (8% vid tidpunkten för skrivandet). Certifieringen är meningsfull som ett golv — det innebär att leverantören har demonstrerat att dess pipeline kan klara 8% på det certifierande ljudet — men det är inte ett tak. Vårt riktmärke använde ett annat korpus (blandad-accent paneltal med korstal), och de certifierade tjänsterna spände från 6,2% (Otter) till 9,6% (Teams) på vårt ljud. Behandla SAS-LIVE som ett upphandlingsfilter, inte som ersättning för testning på det ljud din organisation faktiskt producerar.


Integration med hjälpmedelsteknik

WER mäter om transkriptet är korrekt. AT-integration mäter om en användare med en skärmläsare, punktskriftsdisplay eller lågsynsförstoring faktiskt kan konsumera transkriptet i realtid. De två är inte desamma. Ett perfekt korrekt transkript renderat i en DOM-nod utan aria-live-attribut är osynligt för en dövblind användare på en punktskriftsdisplay, för att hjälpmedelstek nologin aldrig får signalen om att ny text har dykt upp.

Vi granskade varje plattforms undertextpanel för fyra AT-integrationsegenskaper: live-region-tillkännagivande, transkriptexport i slutet av mötet, fokuseringsbara kontroller och tangentbordsgenväg för att växla undertexter. Matrisen:

01
Otter.ai webbklient
Alla fyra: aria-live polite · export · fokuseringsbar · tangentbordsväxling
4 av 4
02
Google Meet
aria-live polite · ingen inbyggd export · fokuseringsbar · tangentbordsväxling
3 av 4
03
Microsoft Teams
Ingen aria-live · export tillgänglig · fokuseringsbar · tangentbordsväxling
3 av 4
04
StreamText-inbäddning
Ingen aria-live · export tillgänglig · delvis fokus · ingen tangentbordsväxling
2 av 4
05
Zoom skrivbordsklient
Ingen aria-live · export tillgänglig · delvis fokus · tangentbordsväxling
2 av 4
06
Cisco Webex
Ingen aria-live · export tillgänglig · ej fokuseringsbar · ingen tangentbordsväxling
1 av 4

AT-integrationskolumnen ordnar om rankningen på intressanta sätt. Otter förblir på förstaplats; men Teams, som placerade fyra på WER, klättrar till en delad andraplats på AT-integration. Webex sitter längst ner på båda axlarna. En dövblind användare på en punktskriftsdisplay betjänas bäst av Otter eller Google Meet i den aktuella produktgenerationen.


Vad den mänskliga CART-skrivaren fortfarande gör bättre

Kontroll-CART-skrivaren överträffade varje automatiserad tjänst på varje mätt axel. WER 3,1% mot det bästa automatiserade 6,2%. Kodnamns-återgivning 96% mot det bästa automatiserade 71%. Korstal WER ungefär 9% — ett antal ingen automatiserad tjänst kom inom trettio procentenheter av.

Men den mänskliga fördelen är inte bara mekanisk. Flera redaktionella beteenden är fortfarande unikt mänskliga. CART-skrivaren parafraserade talare som snubblade och bevarade mening på bekostnad av ordagrann verbatim — automatiserade tjänster antingen tappar den snubblade frasen eller renderar den som nonsens. Hon taggade talarturner med ett namnprefix vid varje taländ — automatiserade tjänster interfogar utan attribution. Hon infogade en förtydligande notering i hakparentes när en talare refererade till en bild som den undertextade publiken inte kunde se. Inget av dessa rörelser syns i ett WER-poäng, men var och en är en del av varför ett professionellt-CART-textat möte känns tillgängligt på ett sätt som ett automatiserat sällan gör.

CART-skrivare, debriefing efter session
The hardest moment in a panel like this is not a thick accent or a technical term. It is two people speaking at once and a third coming in to laugh. I will paraphrase one, queue the other, and tag the laughter. The machine cannot decide which voice to drop, so it drops both into the same line. That line is then technically captioned and practically useless.
— CART-skrivare, session 02 debriefing, 5 maj 2026

Riktmärket i sammanhang

Huvud-resultatet är inte att en tjänst vann. Det är att spridningen mellan bästa och sämsta är tillräckligt bred för att plattformsvalet i sig är ett tillgänglighetsbeslut. En organisation som standardiserade på Webex för att det redan fanns i upphandlingsstacken levererar ett transkript med mer än dubbel felfrekvens jämfört med en organisation som standardiserade på Otter — för samma talare, samma manus, samma ljud. Det är inte en marginell skillnad.

Det andra resultatet är att automatisk textning ännu inte är en ersättning för en mänsklig CART-skrivare under förhållanden där noggrannheten faktiskt spelar roll: juridiska förfaranden, medicinska konsultationer, styrelsemöten, klassrumsundervisning. Gapet 3,1% / 6,2% ser litet ut på ett ark siffror och känns stort för en döv deltagare som försöker följa en snabbt rörlig konversation. Där insatserna motiverar kostnaden är en mänsklig CART-skrivare fortfarande guldstandarden, och SAS-LIVE-certifieringsramverket bevarar uttryckligen den hierarkin.

Det tredje resultatet är operativt. Anpassat vokabulär är den mest underutnyttjade tillgänglighetsspaken inom mötesoperationer. Tre av de sex tjänsterna vi testade accepterar en förinstallerad ordlista. Nästan ingen av de organisationer vi talade med under utformningen av detta riktmärke använde den funktionen, ens där den var tillgänglig på den nivå de redan hade betalat för. Att ladda mötets egennamn och produktnamn in i undertextningstjänsten innan mötet är en fem-minuters uppgift som stänger det mesta av gapet för namngivna entiteter.