Benchmark dokładności napisów na żywo — sześć usług, jeden panel, jeden profesjonalny stenograf CART z tyłu sali
Przetestowaliśmy sześć usług napisów na żywo w trzech 60-minutowych sesjach testowych: Otter.ai, napisy Google Meet, napisy Zoom, napisy Microsoft Teams, napisy Cisco Webex oraz StreamText (obsługiwany przez operatora). Każda sesja przebiegała według identycznego przygotowanego scenariusza — ośmiu prelegentów z mieszanymi akcentami (amerykański, brytyjski, indyjska odmiana angielskiego, bułgarski, singapurski, francuski), siedemnaście nazw własnych w tym pięć celowo zakodowanych produktów, dwa fragmenty o dużej gęstości żargonu technicznego oraz trzy minuty zaplanowanego nakładania się głosów. Każdą sesję jednocześnie obsługiwał profesjonalny stenograf CART piszący 220+ słów na minutę — jego transkrypt stanowił złoty standard. Złożony współczynnik błędów słów (WER) wyniósł od 3,1% (ludzki CART) do 14,8% (najgorzej wypadająca zautomatyzowana usługa). Mediana opóźnienia end-to-end wahała się od 0,9 s do 5,6 s. Dwie usługi osiągnęły próg certyfikacji SAS-LIVE w zakresie rozpoznawania żargonu. Większość — nie.
Co ujawnia benchmark
- 014,8×
Różnica między najdokładniejszą a najmniej dokładną zautomatyzowaną usługą wynosi niemal pięciokrotność WER
Otter.ai uzyskał złożony WER na poziomie ok. 6,2% we wszystkich trzech sesjach. Cisco Webex — ok. 14,8%. To nie jest marginalna różnica — to różnica między transkryptem, który Głuchy uczestnik może śledzić w czasie rzeczywistym, a transkryptem wymagającym rekonstrukcji po spotkaniu.
- 023,1%
Ludzki stenograf CART nadal znacząco przewyższa każdą zautomatyzowaną usługę
Nasz stenograf CART (certyfikat RPR, 240 słów na minutę na stałe) uzyskał złożony WER na poziomie ok. 3,1% — to mniej więcej połowa współczynnika błędów najlepszej zautomatyzowanej usługi i jedna piąta najgorszej. Różnica powiększa się jeszcze bardziej w przypadku nazw własnych i nakładających się wypowiedzi, gdzie człowiek elegancko parafrazuje, a maszyna zgaduje.
- 030,9 s
Mediana opóźnienia między mową a pojawieniem się napisu na ekranie wahała się od poniżej jednej sekundy do niemal sześciu
Google Meet osiągnął najkrótsze mediany opóźnienia na poziomie ok. 0,9 s. Microsoft Teams działał z opóźnieniem ok. 1,4 s. Webex — ok. 2,7 s. StreamText (obsługiwany przez operatora) — średnio ok. 3,8 s. Napisy Zoom w chmurze w regionie poza USA osiągnęły ok. 5,6 s — na tyle długo, że Głuchy uczestnik próbujący zadać pytanie wyjaśniające jest już dwie wypowiedzi z tyłu.
- 0447%
Zakodowane nazwy własne były rozpoznawane poprawnie w mniej niż połowie przypadków przez zautomatyzowane usługi
Spośród pięciu celowo zakodowanych produktów użytych w scenariuszu (np. „Halcyon“, „Bramble“, „Crosshatch“) zautomatyzowane usługi łącznie poprawnie zapisały nazwę w ok. 47% wypowiedzi. Ludzki stenograf CART uzyskał 96% — ponieważ wcześniej przekazano jej słownik. Trzy spośród sześciu usług obsługują niestandardowe słownictwo; pozostałe trzy — nie.
- 052 z 6
Tylko dwie spośród sześciu usług ogłaszają aktualizacje napisów technologiom wspomagającym za pośrednictwem właściwego regionu live ARIA
Klient webowy Otter.ai oraz panel napisów Google Meet udostępniają aktualizacje poprzez regiony
aria-live=“polite”, które użytkownik czytnika ekranu może subskrybować. Zoom, Teams, Webex i StreamText renderują napisy w węzłach DOM bez ogłoszeń — co oznacza, że Głucho-niewidomy użytkownik korzystający z monitora brajlowskiego nie otrzymuje sygnału o pojawieniu się nowego tekstu. - 065,4×
Nakładanie się głosów pogarsza dokładność bardziej niż akcent lub żargon
Podczas trzech minut zaplanowanego nakładania się głosów średni WER zautomatyzowanych usług wzrósł z ok. 7,9% (wartość bazowa dla jednego mówcy) do ok. 42,6% — pogorszenie o 5,4×. Sama różnorodność akcentów podniosła WER o 1,8×; gęstość żargonu — o 2,1×. Nakładanie się dwóch mówców to tryb awarii, którego żadna komercyjna zautomatyzowana usługa nie rozwiązała.
- 073
Trzech dostawców posiada certyfikat SAS-LIVE; tylko jeden z nich zajął pierwsze miejsce w naszym rankingu dokładności
SAS-LIVE (Speech-Accessibility Standard for live captioning, ratyfikowany w 2024 r.) certyfikuje dostawców pod kątem publikowanego progu WER wynoszącego 8% na wybranym korpusie. Otter.ai, StreamText i jedna konfiguracja Microsoft Teams posiadają certyfikat w chwili pisania tego artykułu. Otter.ai zajął pierwsze miejsce w naszym złożonym rankingu; StreamText uplasował się na trzecim miejscu; certyfikowana konfiguracja Teams — na czwartym.
Źródło — Trzy 60-minutowe sesje testowe zarejestrowane 4–6 maja 2026 r. z ośmioma prelegentami według scenariusza, identyczny skrypt we wszystkich sesjach, jednoczesna ludzka kontrola CART. Audio kierowane przez Loopback do natywnej ścieżki napisów każdej platformy. Transkrypty porównane z transkryptem CART przy użyciu NIST sclite dla WER.
Metodologia i warunki testu
Benchmark napisów na żywo stoi lub pada wraz z punktem kontrolnym. Zlecono trzy identyczne 60-minutowe sesje w trzech oddzielnych dniach. Każda sesja przebiegała według tego samego przygotowanego scenariusza: wstęp moderatora, cztery zaplanowane tury prelegentów po ok. siedem minut każda, dwa fragmenty otwartej dyskusji łącznie trwające jedenaście minut, trzyminutowy fragment zaplanowanego nakładania się głosów z dwoma, a czasem trzema jednocześnie mówiącymi mówcami oraz podsumowanie końcowe.
Ośmiu zdalnych panelistów czytało ze scenariusza. Zostali poinformowani o tempie, lecz nie o celu testu. Reprezentowane akcenty: ogólnoamerykański (dwóch mówców), angielski standardowy (jeden), indyjska odmiana angielskiego (jeden), angielski z akcentem bułgarskim (jeden), angielski singapurski (jeden), angielski z akcentem francuskim (jeden), angielski szkocki (jeden). Scenariusz zawierał siedemnaście nazw własnych — dwanaście rzeczywistych (agencje ONZ, cytaty aktów prawnych, nazwy produktów z domeny publicznej) i pięć fikcyjnych kryptonimów wymyślonych na potrzeby tego benchmarku.
Każda sesja była jednocześnie obsługiwana przez wszystkie sześć usług. Audio kierowano przez agregat Loopback do natywnej ścieżki napisów każdej platformy; nie wstawiano żadnej zewnętrznej warstwy rozpoznawania mowy. Profesjonalna stenografka CART dołączyła jako uczestniczka na ukrytej linii, a jej transkrypt był znacznikowany czasowo względem tego samego nagrania audio. Współczynnik błędów słów obliczono na podstawie transkryptu CART przy użyciu NIST sclite z oceną nieuwzględniającą wielkości liter i standardowymi wagami podstawień, wstawień i usunięć.
Złożony ranking
Złożony WER to nieważona średnia WER na sesję w trzech sesjach, oceniana względem transkryptu CART. Główny ranking, od najniższego WER:
Wybór między dwiema platformami konferencyjnymi klasy enterprise może oznaczać różnicę między 6% a 15% współczynnikiem błędów słów. To nie jest różnica narzędziowa. To różnica w zakresie inkluzywności.
WER według warunków mówcy
Złożony WER ukrywa niuanse. Aby zobaczyć, gdzie każda usługa zawodzi, podzielono nagranie audio na cztery warunki: czysta mowa jednego mówcy w języku angielskim ze standardowym akcentem, mowa jednego mówcy z mieszanymi akcentami, fragmenty o dużej gęstości żargonu oraz zaplanowane nakładanie się głosów. Te same sześć usług na tym samym materiale audio, z podziałem według warunków:
Wykres kompresuje główne odkrycie do jednego obrazu: różnorodność akcentów to realna kara, żargon — jeszcze większa, a nakładanie się głosów to urwisko. W zaplanowanym fragmencie z nakładającymi się głosami najgorzej wypadająca zautomatyzowana usługa osiągnęła WER powyżej 60% — w tym momencie transkrypt jest, używając delikatnej terminologii SAS-LIVE, „niewystarczająco komunikatywny“.
Komercyjne potoki rozpoznawania mowy zakładają jeden strumień akustyczny na mówcę. Nowoczesne systemy używają diaryzacji do przypisywania fragmentów audio do identyfikatorów mówców, ale diaryzacja działa po segmentacji — a podczas nakładania się głosów sama segmentacja zawodzi. Wynikiem jest jeden kanał wyjściowy, do którego trafiają dwie wypowiedzi, tworząc transkrypt gramatycznie poprawny, lecz faktycznie błędny w kwestii tego, kto co powiedział. Ludzki stenograf CART rozwiązuje to przez sparafrazowanie jednego z nakładających się mówców i opatrzenie drugiego znacznikiem z nazwiskiem. Żadna z wdrożonych zautomatyzowanych usług nie robi tego w 2026 r.
Opóźnienie na łączu
Opóźnienie mierzono jako czas upływający między szczytem fali dźwiękowej wypowiedzianej sylaby a pojawieniem się odpowiadającego tokenu w DOM napisów platformy, rejestrowany za pomocą nagrania ekranu o wysokiej częstotliwości klatek zsynchronizowanego z falą dźwiękową. Mediana opóźnienia w trzech sesjach:
Opóźnienie ma znaczenie, ponieważ naprawa konwersacyjna ma swoje okno. Literatura naukowa z zakresu studiów nad Głuchymi dotycząca napisów w czasie rzeczywistym wskazuje na użyteczny sufit ok. dwóch sekund — powyżej tego progu Głuchy uczestnik nie może zadać pytania wyjaśniającego, gdy jest ono jeszcze istotne. Według tego kryterium Google Meet, Teams i Otter osiągają dopuszczalny wynik; Webex jest na granicy; StreamText i Zoom — nie.
Wyższe opóźnienie StreamText wynika częściowo z architektury — jest obsługiwany przez operatora, więc w pętli jest ludzkie naciśnięcie klawisza — i częściowo to cena niższego WER w przypadku żargonu. Opóźnienie Zoom w naszej konfiguracji jest trudniej uzasadnić; w regionie USA z włączonymi napisami w chmurze wcześniej opublikowane benchmarki odnotowywały mediany poniżej trzech sekund, więc mediana 5,6 s w naszych testach europejskich odzwierciedla infrastrukturę regionalną, a nie limit możliwości platformy.
Nazwy własne, żargon i problem słownika
Spośród siedemnastu nazw własnych w scenariuszu pięć to kryptonimy wymyślone na potrzeby tego benchmarku. Pięć nazw dobrano tak, by były wiarygodnymi nazwami produktów, lecz nie figurowały w żadnym publicznym korpusie: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Pierwsze trzy to popularne angielskie słowa; dwa ostatnie są mniej powszechne. Zakładano, że nawet najlepsze zautomatyzowane usługi będą mieć problem z rzadkim słownictwem — i tak się stało.
Wniosek jest operacyjny. Niestandardowy słownik to największa dźwignia dokładności, którą kontroluje organizator spotkania. Trzy usługi, które akceptują wstępnie załadowany słownik (Otter, Teams i konfiguracje Webex wspierane przez Azure, których nie testowaliśmy), konsekwentnie przewyższają te, które tego nie robią. Tam gdzie wśród uczestników są osoby Głuche lub słabosłyszące, a spotkanie dotyczy żargonu lub nazw własnych, brak miejsca na niestandardowy słownik to poważne ograniczenie dostępności, a nie brakująca funkcja wygodna.
SAS-LIVE certyfikuje dostawcę napisów na podstawie opublikowanego korpusu i opublikowanego progu WER (8% w chwili pisania tego artykułu). Certyfikacja ma znaczenie jako próg — oznacza, że dostawca wykazał zdolność potoku do osiągnięcia 8% na certyfikowanym nagraniu — ale nie jest sufitem. Nasz benchmark używał innego korpusu (mowa panelowa z mieszanymi akcentami i nakładaniem się głosów), a certyfikowane usługi osiągały od 6,2% (Otter) do 9,6% (Teams) na naszym nagraniu. Należy traktować SAS-LIVE jako filtr w procesie zakupowym, a nie substytut testów na audio, które faktycznie wytwarza Państwa organizacja.
Integracja z technologiami wspomagającymi
WER mierzy poprawność transkryptu. Integracja z technologiami wspomagającymi mierzy, czy użytkownik korzystający z czytnika ekranu, monitora brajlowskiego lub lupy powiększającej może faktycznie konsumować transkrypt w czasie rzeczywistym. To nie jest to samo. Perfekcyjnie dokładny transkrypt wyrenderowany w węźle DOM bez atrybutu aria-live jest niewidoczny dla Głucho-niewidomego użytkownika korzystającego z monitora brajlowskiego, ponieważ technologia wspomagająca nigdy nie otrzymuje sygnału, że pojawił się nowy tekst.
Zbadano panel napisów każdej platformy pod kątem czterech właściwości integracji z technologiami wspomagającymi: ogłaszanie przez region live, eksport transkryptu po zakończeniu spotkania, fokusowalne elementy sterujące oraz skrót klawiaturowy do przełączania napisów. Macierz:
Kolumna integracji z technologiami wspomagającymi przekształca ranking w interesujący sposób. Otter pozostaje na pierwszym miejscu; lecz Teams, który zajął czwarte miejsce pod względem WER, wspina się do remisu na drugim miejscu pod względem integracji z technologiami wspomagającymi. Webex jest ostatni na obu osiach. Głucho-niewidomy użytkownik korzystający z monitora brajlowskiego jest najlepiej obsługiwany przez Otter lub Google Meet w obecnej generacji produktów.
Co ludzki stenograf CART robi lepiej
Stenografka CART z grupy kontrolnej przewyższała każdą zautomatyzowaną usługę na każdej mierzonej osi. WER 3,1% wobec najlepszego zautomatyzowanego 6,2%. Trafność zakodowanych nazw 96% wobec najlepszego zautomatyzowanego 71%. WER przy nakładaniu się głosów ok. 9% — liczba, do której żadna zautomatyzowana usługa nie zbliżyła się nawet o trzydzieści punktów procentowych.
Jednak przewaga człowieka nie jest jedynie mechaniczna. Kilka zachowań redakcyjnych pozostaje wciąż wyłącznie ludzkich. Stenografka parafrazowała mówców, którzy się potykali, zachowując sens kosztem dosłownej wierności — zautomatyzowane usługi albo pomijają potknięty fragment, albo oddają go jako nonsens. Oznaczała zmiany mówców przedrostkiem z nazwiskiem przy każdej zmianie — zautomatyzowane usługi przeplatają bez atrybucji. Wstawiała wyjaśniającą notatkę w nawiasach kwadratowych, gdy mówca odwoływał się do slajdu niewidocznego dla śledzącej napisy publiczności. Żadne z tych działań nie pojawia się w wyniku WER, lecz każde jest częścią tego, dlaczego profesjonalnie obsługiwane spotkanie z CART jest dostępne w sposób, w jaki zautomatyzowane — rzadko.
Benchmark w kontekście
Główne odkrycie nie dotyczy tego, która usługa wygrała. Chodzi o to, że rozpiętość między najlepszą a najgorszą jest na tyle duża, że wybór platformy jest sam w sobie decyzją o dostępności. Organizacja, która domyślnie wybrała Webex, ponieważ był już w procesie zakupowym, dostarczy transkrypt z ponad dwukrotnie większym współczynnikiem błędów niż organizacja, która domyślnie wybrała Otter — dla tego samego mówcy, tego samego scenariusza, tego samego nagrania audio. To nie jest marginalna różnica.
Drugie odkrycie dotyczy tego, że automatyczne napisy nie są jeszcze substytutem ludzkiego stenografa CART w warunkach, gdzie dokładność naprawdę ma znaczenie: postępowania sądowe, konsultacje medyczne, posiedzenia zarządu, nauczanie w klasie. Różnica 3,1% / 6,2% wygląda niewielko na arkuszu liczb i wydaje się duża Głuchemu uczestnikowi próbującemu śledzić szybko rozwijającą się rozmowę. Tam gdzie stawka uzasadnia koszt, ludzki stenograf CART pozostaje złotym standardem, a ramy certyfikacji SAS-LIVE expressis verbis zachowują tę hierarchię.
Trzecie odkrycie jest operacyjne. Niestandardowy słownik to najbardziej niedoceniana dźwignia dostępności w organizacji spotkań. Trzy spośród sześciu testowanych usług akceptują wstępnie załadowany słownik. Niemal żadna z organizacji, z którymi rozmawiano podczas projektowania tego benchmarku, nie korzystała z tej funkcji — nawet tam, gdzie była dostępna w poziomie, za który już zapłacono. Wczytanie do usługi napisów nazw własnych i nazw produktów przed spotkaniem to zadanie na pięć minut, które niweluje większość luki w rozpoznawaniu nazw własnych.