Редакционен материал · Бенчмарк досие · Субтитри на живо

Бенчмарк за точност на субтитрите на живо — шест услуги, един панел, един професионален CART стенограф в дъното на залата

Прекарахме шест услуги за субтитриране на живо през три 60-минутни тестови сесии: Otter.ai, субтитри на Google Meet, субтитри на Zoom, субтитри на Microsoft Teams, субтитри на Cisco Webex и StreamText (с оператор). Всяка сесия следваше един и същ подготвен сценарий — осем участници в панела със смесени акценти (американски, британски, индийски английски, български, сингапурски, френски), седемнадесет именувани обекта, включително пет умишлено кодирани продукта, два пасажа с плътен инженерен жаргон и три минути сценарично кръстосано говорене. Всяка сесия беше едновременно субтитрирана от професионален CART стенограф при 220+ думи в минута, чийто препис служеше като еталон. Измереният съставен процент грешни думи (WER) варираше от 3,1% (човешки CART) до 14,8% (най-слабо представилата се автоматизирана услуга). Медианната латентност от край до край варираше от 0,9 сек до 5,6 сек. Две услуги достигнаха долната граница за сертификация SAS-LIVE при разпознаването на жаргон. Повечето не успяха.

Констатации · Преписка LC-BENCH-2607 записа · от 3 сесии × 6 услуги + 1 човешки CART контрол

Какво разкрива бенчмаркът

014,8×
Разликата между най-точната автоматизирана услуга и най-неточната е почти пет пъти по отношение на WER
Otter.ai отчете съставен WER от около 6,2% в трите сесии. Cisco Webex отчете около 14,8%. Това не е незначителен разброс — това е разликата между препис, който глух участник може да следи в реално време, и препис, който изисква възстановяване след срещата.
023,1%
Човешки CART стенограф все още превъзхожда всяка автоматизирана услуга с голяма преднина
Нашият контролен CART стенограф (сертифициран RPR, 240 думи в минута устойчиво) отчете съставен WER от около 3,1% — приблизително половината от процента грешки на най-добрата автоматизирана услуга и една пета от най-лошата. Разликата се увеличава допълнително при именуваните обекти и припокриващата се реч, където човекът перифразира елегантно, а машината предполага.
030,9 сек
Медианната латентност между речта и субтитъра на екрана варира от под секунда до почти шест
Google Meet отчете най-бързата медианна латентност от около 0,9 сек. Microsoft Teams работеше на около 1,4 сек. Webex беше на около 2,7 сек. StreamText (с оператор) средно около 3,8 сек. Облачните субтитри на Zoom, в регион извън САЩ, достигнаха около 5,6 сек — достатъчно бавно, че глух участник, който се опитва да зададе уточняващ въпрос, вече изостава с две реплики.
0447%
Кодираните обекти бяха възстановени правилно в по-малко от половината случаи при автоматизираните услуги
От петте умишлено кодирани продукта в сценария (напр. „Halcyon“, „Bramble“, „Crosshatch“) автоматизираните услуги като група възстановиха правилния правопис в около 47% от изказванията. Човешкият CART стенограф ги възстанови в 96% от изказванията — защото я инструктирахме с речника предварително. Три от шестте услуги приемат потребителски речник; останалите три не.
052 от 6
Само две от шестте услуги обявяват актуализациите на субтитрите към помощните технологии чрез правилен ARIA жив регион
Уеб клиентът на Otter.ai и панелът със субтитри на Google Meet и двата излагат актуализациите чрез aria-live=“polite” региони, за които потребител на екранен четец може да се абонира. Zoom, Teams, Webex и StreamText изобразяват субтитрите в DOM възли, които не се обявяват — което означава, че сляпо-глух потребител на брайлов дисплей не получава сигнал, че се е появил нов текст.
065,4×
Кръстосаното говорене влошава точността повече, отколкото акцентът или жаргонът
По време на тримминутния сценаричен пасаж с кръстосано говорене средният автоматизиран WER скочи от около 7,9% (базова стойност при един говорещ) на около 42,6% — влошаване от 5,4×. Само вариацията на акцента промени WER с 1,8×; плътността на жаргона — с 2,1×. Припокриването на двама говорещи е режимът на отказ, който нито една търговска автоматизирана услуга все още не е решила.
073
Трима доставчици притежават сертификат SAS-LIVE; само един от тях оглави нашата класация за точност
SAS-LIVE (Стандартът за достъпност на речта за субтитриране на живо, ратифициран през 2024 г.) сертифицира доставчиците спрямо публикувана долна граница на WER от 8% върху курирана извадка. Otter.ai, StreamText и една конфигурация на Microsoft Teams притежават сертификата към момента на писане. Otter.ai оглави нашата съставна класация; StreamText зае трето място; сертифицираната конфигурация на Teams зае четвърто.

Източник — Три 60-минутни тестови сесии, записани на 4–6 май 2026 г. с осем сценарично подготвени участници в панела, идентичен сценарий във всички сесии, едновременен човешки CART контрол. Звукът беше прехвърлен през Loopback в естествения път за субтитриране на всяка платформа. Преписите бяха съпоставени с CART контрола чрез NIST sclite за WER.

В този доклад

01Методология и тестови условия
02Съставната класация
03WER по условие на говорещия
04Латентност по линията
05Имена, жаргон и проблемът с речника
06Интеграция с помощни технологии
07Какво човешкият CART стенограф все още прави по-добре
08Бенчмаркът в контекст

Методология и тестови условия

Бенчмаркът за субтитриране на живо стои или пада в зависимост от контрола. Възложихме три идентични 60-минутни сесии в три отделни дни. Всяка сесия следваше един и същ подготвен сценарий: встъпление на модератор, четири сценарични изказвания на говорещ от приблизително седем минути всяко, два пасажа с открита дискусия с обща продължителност единадесет минути, тримминутен сценаричен пасаж с кръстосано говорене с двама и понякога трима припокриващи се говорещи, и заключение.

Осем дистанционни панелисти четяха от сценария. Бяха инструктирани относно темпото, но не и относно целта на теста. Представени акценти: общоамерикански (двама говорещи), британско произношение (един), индийски английски (един), английски с български акцент (един), сингапурски английски (един), английски с френски акцент (един), шотландски английски (един). Сценарият включваше седемнадесет именувани обекта — дванадесет реални (агенции на ООН, цитати на закони, имена на продукти от обществено достояние) и пет измислени кодови имена, създадени за този бенчмарк.

Всяка сесия беше едновременно субтитрирана чрез всичките шест услуги. Звукът беше прехвърлен през съвкупно устройство Loopback в естествения път за субтитриране на всяка платформа; не беше вмъкнат слой за разпознаване на реч от трета страна. Професионалният CART стенограф се присъедини като участник на скрита линия и нейният препис беше с времеви маркери спрямо същия звук. Процентът грешни думи беше изчислен спрямо CART преписа чрез NIST sclite с оценяване без отчитане на регистъра и стандартни тегла за заместване/вмъкване/изтриване.

01Заключване на сценарияИдентичен 60-минутен сценарий в трите сесии, панелистите не знаят какво се измерва.

02Маршрутизиране на звукаСъвкупно устройство Loopback подаваше едновременно към естествения път за субтитриране на всяка платформа.

03Човешки контролRPR-сертифициран CART стенограф се присъедини скрито, устойчиви 240 думи в минута, служи като еталон.

04ОценяванеNIST sclite, без отчитане на регистъра, стандартни тегла. Латентността измерена чрез времеви маркер от вълнова форма до DOM.

тестови сесии

участници в панела

именувани обекта

180

общо минути субтитри на услуга

Съставната класация

Съставният WER е непретеглената средна стойност на WER по сесии в трите сесии, оценен спрямо CART контрола. Водещата класация, с най-нисък WER на първо място:

Otter.ai (Pro ниво, със зареден потребителски речник)

SAS-LIVE сертифициран · уеб клиент · около 6,2% съставен WER

6,2%

Субтитри на Google Meet (workspace business)

Не е SAS-LIVE сертифициран · около 7,9% съставен WER

7,9%

StreamText (с оператор, коригиран от човек)

SAS-LIVE сертифициран · около 8,4% съставен WER

8,4%

Microsoft Teams (с активиран потребителски речник)

SAS-LIVE сертифицирана конфигурация · около 9,6% съставен WER

9,6%

Zoom (облачни субтитри, регион извън САЩ)

Не е SAS-LIVE сертифициран · около 11,7% съставен WER

11,7%

Субтитри на Cisco Webex (конфигурация по подразбиране)

Не е SAS-LIVE сертифициран · около 14,8% съставен WER

14,8%

Съставната класация обхваща разброс от 4,8× между най-добрата и най-лошата автоматизирана услуга — достатъчно широк, че изборът на платформа сам по себе си е решение за достъпност, а не подробност при обществените поръчки. Човешкият CART контрол при 3,1% (призрачна лента, най-горе) задава еталона; червените акценти отбелязват най-добрата и най-лошата автоматизирана услуга спрямо долната граница за сертификация SAS-LIVE от 8%.

Изборът между две корпоративни платформи за конференции може да означава разликата между 6% и 15% процент грешни думи. Това не е разлика в инструментариума. Това е разлика във включването.

WER по условие на говорещия

Съставният WER скрива текстурата. За да видим къде се проваля всяка услуга, разделихме звука на четири условия: чист английски от един американски говорещ, смесен акцент от един говорещ, пасажи с плътен жаргон и сценарично кръстосано говорене. Същите шест услуги върху същия звук, разбити по условие:

СРЕДЕН WER ПО УСЛОВИЕ НА ГОВОРЕЩИЯ — ОБОБЩЕНИ АВТОМАТИЗИРАНИ УСЛУГИ

Чист американски английски

около 4,1%

Смесен акцент

около 7,4%

Плътен жаргон

около 8,6%

Кръстосано говорене (2–3 говорещи)

около 42,6%

Диаграмата свежда водещата констатация до едно изображение: вариацията на акцента е реална санкция, жаргонът е по-голяма, а припокриващата се реч е пропаст. В пасажа с кръстосано говорене най-слабо представилата се автоматизирана услуга падна до WER над 60% — момент, в който преписът е, по учтивия израз на оценъчния критерий на SAS-LIVE, „комуникативно ненадежден“.

4,1%

WER при чист американски английски с един говорещ, средно за автоматизираните

42,6%

WER при сценарично кръстосано говорене, средно за автоматизираните

10,4×

коефициент на влошаване — от чисто до кръстосано говорене

Защо кръстосаното говорене проваля всяка автоматизирана услуга

Търговските пайплайни за разпознаване на реч предполагат един акустичен поток на говорещ. Съвременните системи използват диаризация, за да присвоят части от звука към идентификатори на говорещи, но диаризацията се изпълнява след сегментацията — а по време на припокриване самата сегментация се проваля. Резултатът е един изходен канал, в който се сливат две изказвания, произвеждайки препис, който е граматически правилен, но фактически грешен относно кой какво е казал. Човешки CART стенограф решава това, като перифразира един от припокриващите се говорещи и предхожда другия с етикет с име. Нито една внедрена автоматизирана услуга не прави това през 2026 г.

Латентност по линията

Латентността беше измерена като изтеклото време между пика на вълновата форма на изговорена сричка и появата на съответния токен в DOM на субтитрите на платформата, заснето чрез запис на екрана с висока кадрова честота, синхронизиран с вълновата форма на звука. Медианна латентност в трите сесии:

МЕДИАННА ЛАТЕНТНОСТ ОТ КРАЙ ДО КРАЙ — ПО-НИСКАТА Е ПО-ДОБРА

Google Meet

около 0,9 сек

Microsoft Teams

около 1,4 сек

Otter.ai

около 1,9 сек

Webex

около 2,7 сек

StreamText

около 3,8 сек

Zoom (регион извън САЩ)

около 5,6 сек

Латентността е от значение, защото поправянето на разговора има прозорец. Литературата от изследванията на глухотата относно субтитрирането в реално време се обединява около използваем таван от около две секунди — над него глух участник не може да зададе уточняващ въпрос, докато той все още е актуален. По този критерий Google Meet, Teams и Otter преминават летвата; Webex е на ръба; StreamText и Zoom не успяват.

По-високата латентност на StreamText е отчасти архитектурна — той е управляван от оператор, така че човешко натискане на клавиш е в цикъла — и отчасти цената на по-ниския му WER при жаргон. Латентността на Zoom в нашата настройка е по-трудна за защита; в регион в САЩ с активирани облачни субтитри предишни публикувани бенчмаркове отчитат медиани под три секунди, така че медиана от 5,6 сек в нашите тестове в европейски регион отразява регионалната инфраструктура, а не тавана на платформата.

Имена, жаргон и проблемът с речника

От седемнадесетте именувани обекта в сценария пет бяха кодови имена, измислени за този бенчмарк. Петте бяха избрани да бъдат правдоподобни имена на продукти, но да не присъстват в нито една публична извадка: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Първите три са обичайни английски думи; последните две са по-рядко срещани. Очаквахме дори най-добрите автоматизирани услуги да се затруднят при случаите с рядка лексика и те се затрудниха.

Човешки CART стенограф (инструктиран с речник)

96% правилно разпознаване на кодираните обекти

96%

Otter.ai (със зареден потребителски речник)

71% правилно разпознаване — потребителският речник направи разликата

71%

Microsoft Teams (със зареден потребителски речник)

59% правилно разпознаване

59%

StreamText (операторът инструктиран)

52% правилно разпознаване — операторът нямаше предварителен речник

52%

Google Meet (без опция за потребителски речник)

38% правилно разпознаване

38%

Zoom + Webex (без опция за потребителски речник)

около 24% правилно разпознаване общо — налучкваха фонетични омофони

24%

Поуката е оперативна. Потребителският речник е единственият най-голям лост за точност, който организаторът на срещата контролира. Трите услуги, които приемат предварително зареден речник (Otter, Teams и Azure-базираните облачни конфигурации на Webex, които не тествахме), надеждно превъзхождат тези, които не приемат. Когато аудиторията включва глухи или с увреден слух участници и срещата включва жаргон или собствени имена, липсата на слот за потребителски речник е значимо ограничение за достъпността, а не липсваща функция за удобство.

Бележка относно сертификацията SAS-LIVE

SAS-LIVE сертифицира доставчик на субтитриране спрямо публикувана извадка и публикувана долна граница на WER (8% към момента на писане). Сертификацията е значима като долна граница — означава, че доставчикът е демонстрирал, че неговият пайплайн може да преодолее 8% върху сертифициращия звук — но не е таван. Нашият бенчмарк използва различна извадка (панелна реч със смесени акценти с кръстосано говорене), а сертифицираните услуги варираха от 6,2% (Otter) до 9,6% (Teams) върху нашия звук. Третирайте SAS-LIVE като филтър при обществените поръчки, а не като заместител на тестване върху звука, който вашата организация действително произвежда.

Интеграция с помощни технологии

WER измерва дали преписът е правилен. Интеграцията с помощни технологии измерва дали потребител с екранен четец, брайлов дисплей или лупа за слабо зрение действително може да консумира преписа в реално време. Двете не са едно и също. Идеално точен препис, изобразен в DOM възел без атрибут aria-live, е невидим за сляпо-глух потребител на брайлов дисплей, защото помощната технология никога не получава сигнала, че се е появил нов текст.

Одитирахме панела със субтитри на всяка платформа за четири свойства на интеграция с помощни технологии: обявяване на жив регион, експортиране на препис в края на срещата, контроли с възможност за фокус и клавишна комбинация за превключване на субтитрите. Матрицата:

Уеб клиент на Otter.ai

И четирите: aria-live polite · експорт · възможност за фокус · клавишно превключване

4 от 4

Google Meet

aria-live polite · без естествен експорт · възможност за фокус · клавишно превключване

3 от 4

Microsoft Teams

Без aria-live · наличен експорт · възможност за фокус · клавишно превключване

3 от 4

StreamText вграждане

Без aria-live · наличен експорт · частичен фокус · без клавишно превключване

2 от 4

Настолен клиент на Zoom

Без aria-live · наличен експорт · частичен фокус · клавишно превключване

2 от 4

Cisco Webex

Без aria-live · наличен експорт · без възможност за фокус · без клавишно превключване

1 от 4

Колоната за интеграция с помощни технологии пренарежда класацията по интересни начини. Otter остава на първо място; но Teams, който зае четвърто място по WER, се изкачва до споделено второ място по интеграция с помощни технологии. Webex е в дъното и по двете оси. Сляпо-глух потребител на брайлов дисплей е най-добре обслужен от Otter или Google Meet в настоящото поколение продукти.

Какво човешкият CART стенограф все още прави по-добре

Контролният CART стенограф превъзхождаше всяка автоматизирана услуга по всяка измерена ос. WER 3,1% спрямо най-добрата автоматизирана 6,2%. Разпознаване на кодови имена 96% спрямо най-добрата автоматизирана 71%. WER при кръстосано говорене приблизително 9% — число, до което нито една автоматизирана услуга не се доближи на тридесет точки.

Но човешкото предимство не е само механично. Няколко редакционни поведения все още са уникално човешки. CART стенографът перифразира говорещите, които се запъваха, запазвайки смисъла за сметка на буквалната дословност — автоматизираните услуги или изпускат запънатата фраза, или я изобразяват като безсмислица. Тя етикетираше смените на говорещия с представка с име при всяка смяна на говорещия — автоматизираните услуги преплитат без приписване. Тя вмъкваше уточняваща бележка в квадратни скоби, когато говорещ се позоваваше на слайд, който субтитрираната аудитория не можеше да види. Нито един от тези ходове не се появява в оценка по WER, но всеки е част от това защо професионално субтитрираната с CART среща изглежда достъпна по начин, по който автоматизираната рядко изглежда.

CART стенограф, разбор след сесията

Най-трудният момент в панел като този не е силен акцент или технически термин. Двама души говорят едновременно, а трети се намесва, за да се засмее. Ще перифразирам единия, ще поставя другия на опашка и ще етикетирам смеха. Машината не може да реши кой глас да изпусне, така че изпуска и двата в един и същ ред. Този ред тогава е технически субтитриран и практически безполезен.

— CART стенограф, разбор на сесия 02, 5 май 2026 г.

Бенчмаркът в контекст

Водещата констатация не е, че една услуга е спечелила. Тя е, че разбросът между най-добрата и най-лошата е достатъчно широк, че изборът на платформа сам по себе си е решение за достъпност. Организация, която по подразбиране е избрала Webex, защото вече е била в стека за обществени поръчки, ще достави препис с повече от два пъти по-висок процент грешки от организация, която по подразбиране е избрала Otter — за същия говорещ, същия сценарий, същия звук. Това не е незначителна разлика.

Втората констатация е, че автоматизираното субтитриране все още не е заместител на човешки CART стенограф в условия, където точността действително има значение: съдебни производства, медицински консултации, заседания на управителни съвети, преподаване в класната стая. Разликата 3,1% / 6,2% изглежда малка на лист с числа и се усеща голяма от глух участник, който се опитва да следи бързо движещ се разговор. Когато залогът оправдава разхода, човешки CART стенограф все още е еталонът и рамката за сертификация SAS-LIVE изрично запазва тази йерархия.

Третата констатация е оперативна. Потребителският речник е най-недостатъчно използваният лост за достъпност в организацията на срещите. Три от шестте услуги, които тествахме, приемат предварително зареден речник. Почти нито една от организациите, с които разговаряхме по време на проектирането на този бенчмарк, не използваше тази функция, дори когато беше налична на нивото, за което вече бяха платили. Зареждането на собствените имена и имена на продукти от срещата в услугата за субтитриране преди срещата е петминутна задача, която затваря по-голямата част от пропастта при именуваните обекти.

Методология и данни: Три 60-минутни тестови сесии, записани на 4, 5 и 6 май 2026 г. Осем сценарично подготвени участници в панела със седем акцентни произхода. Идентичен сценарий във всички сесии, включително тримминутен сценаричен пасаж с кръстосано говорене. Звукът прехвърлен през съвкупно устройство Loopback в естествения път за субтитриране на всяка платформа едновременно. Професионален CART стенограф (RPR-сертифициран, 240 думи в минута устойчиво) се присъедини скрито като контрол на сесията. WER изчислен спрямо CART контрола чрез NIST sclite с оценяване без отчитане на регистъра и стандартни тегла за заместване / вмъкване / изтриване. Латентността измерена чрез времеви маркер от вълнова форма до DOM изобразяване върху записи на екрана, дискретизирани при 120 кадъра в секунда. Одитът на интеграцията с помощни технологии беше проведен с NVDA 2026.1, VoiceOver на macOS 14.5 и BrailleBack на дисплей Focus 40 Blue.

Стандартен контекст: SAS-LIVE (Стандартът за достъпност на речта за субтитриране на живо) беше ратифициран през 2024 г. и установява долна граница на WER от 8% върху курирана извадка като праг за сертификация. Стандартът не сертифицира латентност, разпознаване на именувани обекти или интеграция с помощни технологии — те са отделни въпроси при обществените поръчки. WCAG 2.2 SC 1.2.4 (Субтитри, на живо) изисква субтитри за звук на живо в синхронизирана мултимедия, но не определя прагове за точност.

Какво не е тази статия: Препоръка за обществена поръчка от доставчик. Бенчмаркът отразява три сесии по конкретен сценарий в конкретна акустична среда. Производствено внедряване ще произведе различни числа върху различен звук и всяка организация, която купува субтитриране за глуха или с увреден слух аудитория, следва да проведе собствен тест със собствените си говорещи, преди да подпише договор. Тази статия не е правен съвет и не установява нито един конкретен WER като нормативна долна граница съгласно ADA, EAA, AODA или какъвто и да е национален еквивалент.