Redakcja · Dossier benchmarkowe · Napisy na żywo

Benchmark dokładności napisów na żywo — sześć usług, jeden panel, jeden profesjonalny stenograf CART z tyłu sali

Przetestowaliśmy sześć usług napisów na żywo w trzech 60-minutowych sesjach testowych: Otter.ai, napisy Google Meet, napisy Zoom, napisy Microsoft Teams, napisy Cisco Webex oraz StreamText (obsługiwany przez operatora). Każda sesja przebiegała według identycznego przygotowanego scenariusza — ośmiu prelegentów z mieszanymi akcentami (amerykański, brytyjski, indyjska odmiana angielskiego, bułgarski, singapurski, francuski), siedemnaście nazw własnych w tym pięć celowo zakodowanych produktów, dwa fragmenty o dużej gęstości żargonu technicznego oraz trzy minuty zaplanowanego nakładania się głosów. Każdą sesję jednocześnie obsługiwał profesjonalny stenograf CART piszący 220+ słów na minutę — jego transkrypt stanowił złoty standard. Złożony współczynnik błędów słów (WER) wyniósł od 3,1% (ludzki CART) do 14,8% (najgorzej wypadająca zautomatyzowana usługa). Mediana opóźnienia end-to-end wahała się od 0,9 s do 5,6 s. Dwie usługi osiągnęły próg certyfikacji SAS-LIVE w zakresie rozpoznawania żargonu. Większość — nie.

Ustalenia · Akta sprawy LC-BENCH-2607 wpisów · wyprowadzono z 3 sesji × 6 usług + 1 ludzki punkt kontrolny CART

Co ujawnia benchmark

  1. 014,8×

    Różnica między najdokładniejszą a najmniej dokładną zautomatyzowaną usługą wynosi niemal pięciokrotność WER

    Otter.ai uzyskał złożony WER na poziomie ok. 6,2% we wszystkich trzech sesjach. Cisco Webex — ok. 14,8%. To nie jest marginalna różnica — to różnica między transkryptem, który Głuchy uczestnik może śledzić w czasie rzeczywistym, a transkryptem wymagającym rekonstrukcji po spotkaniu.

  2. 023,1%

    Ludzki stenograf CART nadal znacząco przewyższa każdą zautomatyzowaną usługę

    Nasz stenograf CART (certyfikat RPR, 240 słów na minutę na stałe) uzyskał złożony WER na poziomie ok. 3,1% — to mniej więcej połowa współczynnika błędów najlepszej zautomatyzowanej usługi i jedna piąta najgorszej. Różnica powiększa się jeszcze bardziej w przypadku nazw własnych i nakładających się wypowiedzi, gdzie człowiek elegancko parafrazuje, a maszyna zgaduje.

  3. 030,9 s

    Mediana opóźnienia między mową a pojawieniem się napisu na ekranie wahała się od poniżej jednej sekundy do niemal sześciu

    Google Meet osiągnął najkrótsze mediany opóźnienia na poziomie ok. 0,9 s. Microsoft Teams działał z opóźnieniem ok. 1,4 s. Webex — ok. 2,7 s. StreamText (obsługiwany przez operatora) — średnio ok. 3,8 s. Napisy Zoom w chmurze w regionie poza USA osiągnęły ok. 5,6 s — na tyle długo, że Głuchy uczestnik próbujący zadać pytanie wyjaśniające jest już dwie wypowiedzi z tyłu.

  4. 0447%

    Zakodowane nazwy własne były rozpoznawane poprawnie w mniej niż połowie przypadków przez zautomatyzowane usługi

    Spośród pięciu celowo zakodowanych produktów użytych w scenariuszu (np. „Halcyon“, „Bramble“, „Crosshatch“) zautomatyzowane usługi łącznie poprawnie zapisały nazwę w ok. 47% wypowiedzi. Ludzki stenograf CART uzyskał 96% — ponieważ wcześniej przekazano jej słownik. Trzy spośród sześciu usług obsługują niestandardowe słownictwo; pozostałe trzy — nie.

  5. 052 z 6

    Tylko dwie spośród sześciu usług ogłaszają aktualizacje napisów technologiom wspomagającym za pośrednictwem właściwego regionu live ARIA

    Klient webowy Otter.ai oraz panel napisów Google Meet udostępniają aktualizacje poprzez regiony aria-live=“polite”, które użytkownik czytnika ekranu może subskrybować. Zoom, Teams, Webex i StreamText renderują napisy w węzłach DOM bez ogłoszeń — co oznacza, że Głucho-niewidomy użytkownik korzystający z monitora brajlowskiego nie otrzymuje sygnału o pojawieniu się nowego tekstu.

  6. 065,4×

    Nakładanie się głosów pogarsza dokładność bardziej niż akcent lub żargon

    Podczas trzech minut zaplanowanego nakładania się głosów średni WER zautomatyzowanych usług wzrósł z ok. 7,9% (wartość bazowa dla jednego mówcy) do ok. 42,6% — pogorszenie o 5,4×. Sama różnorodność akcentów podniosła WER o 1,8×; gęstość żargonu — o 2,1×. Nakładanie się dwóch mówców to tryb awarii, którego żadna komercyjna zautomatyzowana usługa nie rozwiązała.

  7. 073

    Trzech dostawców posiada certyfikat SAS-LIVE; tylko jeden z nich zajął pierwsze miejsce w naszym rankingu dokładności

    SAS-LIVE (Speech-Accessibility Standard for live captioning, ratyfikowany w 2024 r.) certyfikuje dostawców pod kątem publikowanego progu WER wynoszącego 8% na wybranym korpusie. Otter.ai, StreamText i jedna konfiguracja Microsoft Teams posiadają certyfikat w chwili pisania tego artykułu. Otter.ai zajął pierwsze miejsce w naszym złożonym rankingu; StreamText uplasował się na trzecim miejscu; certyfikowana konfiguracja Teams — na czwartym.

Źródło — Trzy 60-minutowe sesje testowe zarejestrowane 4–6 maja 2026 r. z ośmioma prelegentami według scenariusza, identyczny skrypt we wszystkich sesjach, jednoczesna ludzka kontrola CART. Audio kierowane przez Loopback do natywnej ścieżki napisów każdej platformy. Transkrypty porównane z transkryptem CART przy użyciu NIST sclite dla WER.


Metodologia i warunki testu

Benchmark napisów na żywo stoi lub pada wraz z punktem kontrolnym. Zlecono trzy identyczne 60-minutowe sesje w trzech oddzielnych dniach. Każda sesja przebiegała według tego samego przygotowanego scenariusza: wstęp moderatora, cztery zaplanowane tury prelegentów po ok. siedem minut każda, dwa fragmenty otwartej dyskusji łącznie trwające jedenaście minut, trzyminutowy fragment zaplanowanego nakładania się głosów z dwoma, a czasem trzema jednocześnie mówiącymi mówcami oraz podsumowanie końcowe.

Ośmiu zdalnych panelistów czytało ze scenariusza. Zostali poinformowani o tempie, lecz nie o celu testu. Reprezentowane akcenty: ogólnoamerykański (dwóch mówców), angielski standardowy (jeden), indyjska odmiana angielskiego (jeden), angielski z akcentem bułgarskim (jeden), angielski singapurski (jeden), angielski z akcentem francuskim (jeden), angielski szkocki (jeden). Scenariusz zawierał siedemnaście nazw własnych — dwanaście rzeczywistych (agencje ONZ, cytaty aktów prawnych, nazwy produktów z domeny publicznej) i pięć fikcyjnych kryptonimów wymyślonych na potrzeby tego benchmarku.

Każda sesja była jednocześnie obsługiwana przez wszystkie sześć usług. Audio kierowano przez agregat Loopback do natywnej ścieżki napisów każdej platformy; nie wstawiano żadnej zewnętrznej warstwy rozpoznawania mowy. Profesjonalna stenografka CART dołączyła jako uczestniczka na ukrytej linii, a jej transkrypt był znacznikowany czasowo względem tego samego nagrania audio. Współczynnik błędów słów obliczono na podstawie transkryptu CART przy użyciu NIST sclite z oceną nieuwzględniającą wielkości liter i standardowymi wagami podstawień, wstawień i usunięć.

01Zamrożenie scenariuszaIdentyczny 60-minutowy scenariusz dla trzech sesji; prelegenci nie wiedzieli, co było mierzone.
02Kierowanie audioAgregat Loopback zasilał jednocześnie natywną ścieżkę napisów każdej platformy.
03Ludzki punkt kontrolnyCertyfikowana stenografka RPR dołączyła ukryta, utrzymując 240 słów na minutę, i służyła jako złoty standard.
04OcenaNIST sclite, nieuwzględniający wielkości liter, standardowe wagi. Opóźnienie mierzone znacznikiem czasowym od kształtu fali do DOM.
3
sesje testowe
8
prelegentów
17
nazw własnych
180
łącznych minut napisów na usługę

Złożony ranking

Złożony WER to nieważona średnia WER na sesję w trzech sesjach, oceniana względem transkryptu CART. Główny ranking, od najniższego WER:

01
Otter.ai (poziom Pro, załadowany niestandardowy słownik)
Certyfikat SAS-LIVE · klient webowy · ok. 6,2% złożonego WER
6,2%
02
Napisy Google Meet (workspace business)
Brak certyfikatu SAS-LIVE · ok. 7,9% złożonego WER
7,9%
03
StreamText (obsługiwany przez operatora, korygowany przez człowieka)
Certyfikat SAS-LIVE · ok. 8,4% złożonego WER
8,4%
04
Microsoft Teams (z włączonym niestandardowym słownikiem)
Konfiguracja z certyfikatem SAS-LIVE · ok. 9,6% złożonego WER
9,6%
05
Zoom (napisy w chmurze, region poza USA)
Brak certyfikatu SAS-LIVE · ok. 11,7% złożonego WER
11,7%
06
Napisy Cisco Webex (domyślna konfiguracja)
Brak certyfikatu SAS-LIVE · ok. 14,8% złożonego WER
14,8%
Złożony współczynnik błędów słów według usługi napisów na żywo w trzech 60-minutowych sesjach testowychPoziomy wykres słupkowy złożonego współczynnika błędów słów. Od najniższego do najwyższego: ludzki punkt kontrolny CART 3,1% (złoty standard, pokazany dla odniesienia); Otter.ai 6,2% (najlepsza zautomatyzowana, wyróżniona); Google Meet 7,9%; StreamText 8,4%; Microsoft Teams 9,6%; Zoom 11,7%; Cisco Webex 14,8% (najgorsza zautomatyzowana, wyróżniona). Rozpiętość między najlepszą a najgorszą zautomatyzowaną usługą wynosi 4,8 raza.Próg SAS-LIVE 8%0%5%10%15%Ludzki CARTOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (punkt kontrolny)6,2%7,9%8,4%9,6%11,7%14,8%Złożony WER, trzy sesje 60-minutowe, NIST sclite względem ludzkiego punktu kontrolnego CART
Złożony ranking obejmuje rozpiętość 4,8× między najlepszą a najgorszą zautomatyzowaną usługą — na tyle dużą, że wybór platformy jest sam w sobie decyzją o dostępności, a nie kwestią zamówień publicznych. Ludzki punkt kontrolny CART na poziomie 3,1% (szary słupek, na górze) wyznacza złoty standard; kolorem czerwonym zaznaczono najlepszą i najgorszą zautomatyzowaną usługę na tle progu certyfikacji SAS-LIVE 8%.

Wybór między dwiema platformami konferencyjnymi klasy enterprise może oznaczać różnicę między 6% a 15% współczynnikiem błędów słów. To nie jest różnica narzędziowa. To różnica w zakresie inkluzywności.


WER według warunków mówcy

Złożony WER ukrywa niuanse. Aby zobaczyć, gdzie każda usługa zawodzi, podzielono nagranie audio na cztery warunki: czysta mowa jednego mówcy w języku angielskim ze standardowym akcentem, mowa jednego mówcy z mieszanymi akcentami, fragmenty o dużej gęstości żargonu oraz zaplanowane nakładanie się głosów. Te same sześć usług na tym samym materiale audio, z podziałem według warunków:

ŚREDNI WER WEDŁUG WARUNKÓW MÓWCY — USŁUGI ZAUTOMATYZOWANE ŁĄCZNIE
Czysta mowa (akcent amerykański)
ok. 4,1%
Mieszane akcenty
ok. 7,4%
Gęsty żargon
ok. 8,6%
Nakładanie się głosów (2–3 mówców)
ok. 42,6%

Wykres kompresuje główne odkrycie do jednego obrazu: różnorodność akcentów to realna kara, żargon — jeszcze większa, a nakładanie się głosów to urwisko. W zaplanowanym fragmencie z nakładającymi się głosami najgorzej wypadająca zautomatyzowana usługa osiągnęła WER powyżej 60% — w tym momencie transkrypt jest, używając delikatnej terminologii SAS-LIVE, „niewystarczająco komunikatywny“.

4,1%
WER dla czystej mowy jednego mówcy (akcent amerykański), średnia zautomatyzowana
42,6%
WER dla zaplanowanego nakładania się głosów, średnia zautomatyzowana
10,4×
współczynnik degradacji — od czystej mowy do nakładania się głosów
Dlaczego nakładanie się głosów niszczy każdą zautomatyzowaną usługę

Komercyjne potoki rozpoznawania mowy zakładają jeden strumień akustyczny na mówcę. Nowoczesne systemy używają diaryzacji do przypisywania fragmentów audio do identyfikatorów mówców, ale diaryzacja działa po segmentacji — a podczas nakładania się głosów sama segmentacja zawodzi. Wynikiem jest jeden kanał wyjściowy, do którego trafiają dwie wypowiedzi, tworząc transkrypt gramatycznie poprawny, lecz faktycznie błędny w kwestii tego, kto co powiedział. Ludzki stenograf CART rozwiązuje to przez sparafrazowanie jednego z nakładających się mówców i opatrzenie drugiego znacznikiem z nazwiskiem. Żadna z wdrożonych zautomatyzowanych usług nie robi tego w 2026 r.


Opóźnienie na łączu

Opóźnienie mierzono jako czas upływający między szczytem fali dźwiękowej wypowiedzianej sylaby a pojawieniem się odpowiadającego tokenu w DOM napisów platformy, rejestrowany za pomocą nagrania ekranu o wysokiej częstotliwości klatek zsynchronizowanego z falą dźwiękową. Mediana opóźnienia w trzech sesjach:

MEDIANA OPÓŹNIENIA END-TO-END — IM NIŻSZE, TYM LEPSZE
Google Meet
ok. 0,9 s
Microsoft Teams
ok. 1,4 s
Otter.ai
ok. 1,9 s
Webex
ok. 2,7 s
StreamText
ok. 3,8 s
Zoom (region poza USA)
ok. 5,6 s

Opóźnienie ma znaczenie, ponieważ naprawa konwersacyjna ma swoje okno. Literatura naukowa z zakresu studiów nad Głuchymi dotycząca napisów w czasie rzeczywistym wskazuje na użyteczny sufit ok. dwóch sekund — powyżej tego progu Głuchy uczestnik nie może zadać pytania wyjaśniającego, gdy jest ono jeszcze istotne. Według tego kryterium Google Meet, Teams i Otter osiągają dopuszczalny wynik; Webex jest na granicy; StreamText i Zoom — nie.

Wyższe opóźnienie StreamText wynika częściowo z architektury — jest obsługiwany przez operatora, więc w pętli jest ludzkie naciśnięcie klawisza — i częściowo to cena niższego WER w przypadku żargonu. Opóźnienie Zoom w naszej konfiguracji jest trudniej uzasadnić; w regionie USA z włączonymi napisami w chmurze wcześniej opublikowane benchmarki odnotowywały mediany poniżej trzech sekund, więc mediana 5,6 s w naszych testach europejskich odzwierciedla infrastrukturę regionalną, a nie limit możliwości platformy.


Nazwy własne, żargon i problem słownika

Spośród siedemnastu nazw własnych w scenariuszu pięć to kryptonimy wymyślone na potrzeby tego benchmarku. Pięć nazw dobrano tak, by były wiarygodnymi nazwami produktów, lecz nie figurowały w żadnym publicznym korpusie: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Pierwsze trzy to popularne angielskie słowa; dwa ostatnie są mniej powszechne. Zakładano, że nawet najlepsze zautomatyzowane usługi będą mieć problem z rzadkim słownictwem — i tak się stało.

01
Ludzki stenograf CART (zapoznany ze słownikiem)
96% poprawnych trafień zakodowanych nazw własnych
96%
02
Otter.ai (załadowany niestandardowy słownik)
71% poprawnych trafień — niestandardowy słownik zrobił różnicę
71%
03
Microsoft Teams (załadowany niestandardowy słownik)
59% poprawnych trafień
59%
04
StreamText (operator poinformowany)
52% poprawnych trafień — operator nie miał wcześniejszego słownika
52%
05
Google Meet (brak opcji niestandardowego słownika)
38% poprawnych trafień
38%
06
Zoom + Webex (brak opcji niestandardowego słownika)
ok. 24% poprawnych trafień łącznie — zgadywano fonetyczne homofony
24%

Wniosek jest operacyjny. Niestandardowy słownik to największa dźwignia dokładności, którą kontroluje organizator spotkania. Trzy usługi, które akceptują wstępnie załadowany słownik (Otter, Teams i konfiguracje Webex wspierane przez Azure, których nie testowaliśmy), konsekwentnie przewyższają te, które tego nie robią. Tam gdzie wśród uczestników są osoby Głuche lub słabosłyszące, a spotkanie dotyczy żargonu lub nazw własnych, brak miejsca na niestandardowy słownik to poważne ograniczenie dostępności, a nie brakująca funkcja wygodna.

Uwaga na temat certyfikacji SAS-LIVE

SAS-LIVE certyfikuje dostawcę napisów na podstawie opublikowanego korpusu i opublikowanego progu WER (8% w chwili pisania tego artykułu). Certyfikacja ma znaczenie jako próg — oznacza, że dostawca wykazał zdolność potoku do osiągnięcia 8% na certyfikowanym nagraniu — ale nie jest sufitem. Nasz benchmark używał innego korpusu (mowa panelowa z mieszanymi akcentami i nakładaniem się głosów), a certyfikowane usługi osiągały od 6,2% (Otter) do 9,6% (Teams) na naszym nagraniu. Należy traktować SAS-LIVE jako filtr w procesie zakupowym, a nie substytut testów na audio, które faktycznie wytwarza Państwa organizacja.


Integracja z technologiami wspomagającymi

WER mierzy poprawność transkryptu. Integracja z technologiami wspomagającymi mierzy, czy użytkownik korzystający z czytnika ekranu, monitora brajlowskiego lub lupy powiększającej może faktycznie konsumować transkrypt w czasie rzeczywistym. To nie jest to samo. Perfekcyjnie dokładny transkrypt wyrenderowany w węźle DOM bez atrybutu aria-live jest niewidoczny dla Głucho-niewidomego użytkownika korzystającego z monitora brajlowskiego, ponieważ technologia wspomagająca nigdy nie otrzymuje sygnału, że pojawił się nowy tekst.

Zbadano panel napisów każdej platformy pod kątem czterech właściwości integracji z technologiami wspomagającymi: ogłaszanie przez region live, eksport transkryptu po zakończeniu spotkania, fokusowalne elementy sterujące oraz skrót klawiaturowy do przełączania napisów. Macierz:

01
Klient webowy Otter.ai
Wszystkie cztery: aria-live polite · eksport · fokusowany · przełącznik klawiaturowy
4 z 4
02
Google Meet
aria-live polite · brak natywnego eksportu · fokusowany · przełącznik klawiaturowy
3 z 4
03
Microsoft Teams
Brak aria-live · eksport dostępny · fokusowany · przełącznik klawiaturowy
3 z 4
04
Osadzony StreamText
Brak aria-live · eksport dostępny · częściowy fokus · brak przełącznika klawiaturowego
2 z 4
05
Klient desktopowy Zoom
Brak aria-live · eksport dostępny · częściowy fokus · przełącznik klawiaturowy
2 z 4
06
Cisco Webex
Brak aria-live · eksport dostępny · niefokusowany · brak przełącznika klawiaturowego
1 z 4

Kolumna integracji z technologiami wspomagającymi przekształca ranking w interesujący sposób. Otter pozostaje na pierwszym miejscu; lecz Teams, który zajął czwarte miejsce pod względem WER, wspina się do remisu na drugim miejscu pod względem integracji z technologiami wspomagającymi. Webex jest ostatni na obu osiach. Głucho-niewidomy użytkownik korzystający z monitora brajlowskiego jest najlepiej obsługiwany przez Otter lub Google Meet w obecnej generacji produktów.


Co ludzki stenograf CART robi lepiej

Stenografka CART z grupy kontrolnej przewyższała każdą zautomatyzowaną usługę na każdej mierzonej osi. WER 3,1% wobec najlepszego zautomatyzowanego 6,2%. Trafność zakodowanych nazw 96% wobec najlepszego zautomatyzowanego 71%. WER przy nakładaniu się głosów ok. 9% — liczba, do której żadna zautomatyzowana usługa nie zbliżyła się nawet o trzydzieści punktów procentowych.

Jednak przewaga człowieka nie jest jedynie mechaniczna. Kilka zachowań redakcyjnych pozostaje wciąż wyłącznie ludzkich. Stenografka parafrazowała mówców, którzy się potykali, zachowując sens kosztem dosłownej wierności — zautomatyzowane usługi albo pomijają potknięty fragment, albo oddają go jako nonsens. Oznaczała zmiany mówców przedrostkiem z nazwiskiem przy każdej zmianie — zautomatyzowane usługi przeplatają bez atrybucji. Wstawiała wyjaśniającą notatkę w nawiasach kwadratowych, gdy mówca odwoływał się do slajdu niewidocznego dla śledzącej napisy publiczności. Żadne z tych działań nie pojawia się w wyniku WER, lecz każde jest częścią tego, dlaczego profesjonalnie obsługiwane spotkanie z CART jest dostępne w sposób, w jaki zautomatyzowane — rzadko.

Stenografka CART, debriefing po sesji
The hardest moment in a panel like this is not a thick accent or a technical term. It is two people speaking at once and a third coming in to laugh. I will paraphrase one, queue the other, and tag the laughter. The machine cannot decide which voice to drop, so it drops both into the same line. That line is then technically captioned and practically useless.
— Stenografka CART, debriefing sesji 02, 5 maja 2026 r.

Benchmark w kontekście

Główne odkrycie nie dotyczy tego, która usługa wygrała. Chodzi o to, że rozpiętość między najlepszą a najgorszą jest na tyle duża, że wybór platformy jest sam w sobie decyzją o dostępności. Organizacja, która domyślnie wybrała Webex, ponieważ był już w procesie zakupowym, dostarczy transkrypt z ponad dwukrotnie większym współczynnikiem błędów niż organizacja, która domyślnie wybrała Otter — dla tego samego mówcy, tego samego scenariusza, tego samego nagrania audio. To nie jest marginalna różnica.

Drugie odkrycie dotyczy tego, że automatyczne napisy nie są jeszcze substytutem ludzkiego stenografa CART w warunkach, gdzie dokładność naprawdę ma znaczenie: postępowania sądowe, konsultacje medyczne, posiedzenia zarządu, nauczanie w klasie. Różnica 3,1% / 6,2% wygląda niewielko na arkuszu liczb i wydaje się duża Głuchemu uczestnikowi próbującemu śledzić szybko rozwijającą się rozmowę. Tam gdzie stawka uzasadnia koszt, ludzki stenograf CART pozostaje złotym standardem, a ramy certyfikacji SAS-LIVE expressis verbis zachowują tę hierarchię.

Trzecie odkrycie jest operacyjne. Niestandardowy słownik to najbardziej niedoceniana dźwignia dostępności w organizacji spotkań. Trzy spośród sześciu testowanych usług akceptują wstępnie załadowany słownik. Niemal żadna z organizacji, z którymi rozmawiano podczas projektowania tego benchmarku, nie korzystała z tej funkcji — nawet tam, gdzie była dostępna w poziomie, za który już zapłacono. Wczytanie do usługi napisów nazw własnych i nazw produktów przed spotkaniem to zadanie na pięć minut, które niweluje większość luki w rozpoznawaniu nazw własnych.