Editorial · Dossier benchmark · Sottotitolazione in tempo reale

Benchmark di accuratezza dei sottotitoli in tempo reale — sei servizi, un panel, un trascrittore CART professionista in fondo alla sala

Sei servizi di sottotitolazione in tempo reale sono stati sottoposti a tre sessioni di test di 60 minuti: Otter.ai, sottotitoli di Google Meet, sottotitoli di Zoom, sottotitoli di Microsoft Teams, sottotitoli di Cisco Webex e StreamText (operatore umano). Ogni sessione ha utilizzato lo stesso copione preparato — otto relatori con accenti misti (americano, britannico, inglese indiano, bulgaro, singaporiano, francese), diciassette entità nominate di cui cinque deliberatamente codificate come nomi di prodotto, due passaggi di gergo tecnico denso e tre minuti di sovrapposizione di voci pianificata. Ogni sessione è stata contemporaneamente trascritta da un trascrittore CART professionista a oltre 220 parole al minuto, il cui trascritto ha costituito lo standard di riferimento. Il word-error rate (WER) composito misurato è variato da 3,1% (CART umano) a 14,8% (il servizio automatizzato meno performante). La latenza mediana end-to-end è variata da 0,9 s a 5,6 s. Due servizi hanno raggiunto la soglia di certificazione SAS-LIVE per il recupero del gergo tecnico. La maggior parte non ci è riuscita.

Risultati · Fascicolo LC-BENCH-2607 voci · derivate da 3 sessioni × 6 servizi + 1 controllo CART umano

Cosa rivela il benchmark

  1. 014,8×

    Il divario tra il servizio automatizzato più accurato e quello meno accurato è quasi cinque volte il WER

    Otter.ai ha registrato un WER composito di circa il 6,2% nelle tre sessioni. Cisco Webex ha registrato circa il 14,8%. Non si tratta di una differenza marginale — è la differenza tra un trascritto che un partecipante sordo può seguire in tempo reale e un trascritto che richiede ricostruzione post-incontro.

  2. 023,1%

    Un trascrittore CART umano supera ancora ogni servizio automatizzato con un ampio margine

    Il trascrittore CART di controllo (certificato RPR, 240 parole al minuto sostenute) ha ottenuto un WER composito di circa il 3,1% — circa la metà del tasso di errore del miglior servizio automatizzato e un quinto del peggiore. Il divario si amplia ulteriormente su entità nominate e discorso sovrapposto, dove il professionista parafrasa con grazia e la macchina indovina.

  3. 030,9 s

    La latenza mediana tra il parlato e il sottotitolo a schermo è variata da meno di un secondo a quasi sei

    Google Meet ha registrato la latenza mediana più bassa, circa 0,9 s. Microsoft Teams ha operato a circa 1,4 s. Webex si è attestato a circa 2,7 s. StreamText (operatore umano) ha mediato circa 3,8 s. I sottotitoli cloud di Zoom, su una regione non statunitense, hanno raggiunto circa 5,6 s — abbastanza lento da far sì che un partecipante sordo che cerchi di porre una domanda di chiarimento sia già indietro di due battute.

  4. 0447%

    Le entità nominate in codice sono state recuperate correttamente in meno della metà dei casi tra i servizi automatizzati

    Dei cinque prodotti deliberatamente codificati nel copione (ad es. «Halcyon», «Bramble», «Crosshatch»), i servizi automatizzati nel complesso hanno recuperato l’ortografia corretta in circa il 47% delle occorrenze. La trascrittrice CART umana le ha recuperate nel 96% dei casi — perché era stata briefata in anticipo con il glossario. Tre dei sei servizi accettano un vocabolario personalizzato; gli altri tre no.

  5. 052 su 6

    Solo due dei sei servizi comunicano gli aggiornamenti dei sottotitoli alle tecnologie assistive tramite una corretta regione ARIA live

    Il client web di Otter.ai e il pannello dei sottotitoli di Google Meet espongono entrambi gli aggiornamenti tramite regioni aria-live=“polite” a cui un utente di screen reader può abbonarsi. Zoom, Teams, Webex e StreamText rendono i sottotitoli in nodi DOM non annunciati — il che significa che un utente sordo-cieco su un display braille non riceve alcun segnale che sia apparso nuovo testo.

  6. 065,4×

    La sovrapposizione di voci degrada l’accuratezza più dell’accento o del gergo tecnico

    Durante il passaggio di tre minuti con sovrapposizione di voci pianificata, il WER automatizzato medio è balzato da circa il 7,9% (base con un solo oratore) a circa il 42,6% — un degrado di 5,4×. La sola variazione di accento ha spostato il WER di 1,8×; la densità di gergo tecnico di 2,1×. La sovrapposizione di due oratori è la modalità di fallimento che nessun servizio commerciale automatizzato ha ancora risolto.

  7. 073

    Tre fornitori hanno la certificazione SAS-LIVE; solo uno di essi ha guidato la nostra classifica di accuratezza

    SAS-LIVE (lo Speech-Accessibility Standard per la sottotitolazione in tempo reale, ratificato nel 2024) certifica i fornitori rispetto a una soglia WER pubblicata dell’8% su un corpus curato. Otter.ai, StreamText e una configurazione di Microsoft Teams dispongono della certificazione al momento della stesura. Otter.ai ha guidato la nostra classifica composita; StreamText si è classificato terzo; la configurazione Teams certificata si è classificata quarta.

Fonte — Tre sessioni di test di 60 minuti registrate dal 4 al 6 maggio 2026 con otto relatori panel con copione, copione identico tra le sessioni, controllo CART umano simultaneo. Audio instradato tramite Loopback nel percorso di sottotitolazione nativo di ciascuna piattaforma. Trascritti confrontati con il controllo CART usando NIST sclite per il WER.


Metodologia e condizioni di test

Un benchmark di sottotitolazione in tempo reale vale per la qualità del controllo. Sono state commissionate tre sessioni identiche di 60 minuti in tre giorni separati. Ogni sessione ha seguito lo stesso copione preparato: un’apertura del moderatore, quattro turni di oratori con copione di circa sette minuti ciascuno, due passaggi di discussione aperta per un totale di undici minuti, un passaggio di tre minuti di sovrapposizione pianificata con due e occasionalmente tre oratori sovrapposti, e una chiusura finale.

Otto relatori remoti hanno letto dal copione. Erano stati briefati sul ritmo ma non sullo scopo del test. Accenti rappresentati: inglese americano generale (due oratori), Received Pronunciation (uno), inglese indiano (uno), inglese con accento bulgaro (uno), inglese singaporiano (uno), inglese con accento francese (uno), inglese scozzese (uno). Il copione includeva diciassette entità nominate — dodici reali (agenzie ONU, citazioni di statuti, nomi di prodotto di dominio pubblico) e cinque nome in codice inventati per questo benchmark.

Ogni sessione è stata sottotitolata contemporaneamente attraverso tutti e sei i servizi. L’audio è stato instradato tramite un dispositivo aggregato Loopback nel percorso di sottotitolazione nativo di ciascuna piattaforma; non è stato inserito alcuno strato di riconoscimento vocale di terze parti. La trascrittrice CART professionista si è unita come partecipante su una linea nascosta e il suo trascritto è stato marcato temporalmente rispetto allo stesso audio. Il word-error rate è stato calcolato rispetto al trascritto CART usando NIST sclite con punteggio case-insensitive e pesi standard di sostituzione/inserimento/cancellazione.

01Blocco del copioneCopione identico di 60 minuti nelle tre sessioni; i relatori non sapevano cosa veniva misurato.
02Instradamento audioIl dispositivo aggregato Loopback ha alimentato simultaneamente il percorso di sottotitolazione nativo di ciascuna piattaforma.
03Controllo umanoTrascrittrice CART certificata RPR, connessa in modo nascosto, 240 parole al minuto sostenute, standard di riferimento.
04PunteggioNIST sclite, case-insensitive, pesi standard. Latenza misurata da waveform a timestamp DOM.
3
sessioni di test
8
oratori panel
17
entità nominate
180
minuti totali di sottotitoli per servizio

La classifica composita

Il WER composito è la media non ponderata del WER per sessione nelle tre sessioni, calcolato rispetto al controllo CART. La classifica principale, dal WER più basso al più alto:

01
Otter.ai (livello Pro, vocabolario personalizzato caricato)
Certificato SAS-LIVE · client web · circa 6,2% WER composito
6,2%
02
Google Meet captions (workspace business)
Non certificato SAS-LIVE · circa 7,9% WER composito
7,9%
03
StreamText (operatore umano, con correzione umana)
Certificato SAS-LIVE · circa 8,4% WER composito
8,4%
04
Microsoft Teams (con vocabolario personalizzato abilitato)
Configurazione certificata SAS-LIVE · circa 9,6% WER composito
9,6%
05
Zoom (sottotitolazione cloud, regione non USA)
Non certificato SAS-LIVE · circa 11,7% WER composito
11,7%
06
Cisco Webex captions (configurazione predefinita)
Non certificato SAS-LIVE · circa 14,8% WER composito
14,8%
Word-error rate composito per servizio di sottotitolazione in tempo reale nelle tre sessioni di test di 60 minutiGrafico a barre orizzontali del word-error rate composito. Dal più basso al più alto: controllo CART umano 3,1 percento (riferimento gold standard); Otter.ai 6,2 percento (miglior automatizzato, evidenziato); Google Meet 7,9 percento; StreamText 8,4 percento; Microsoft Teams 9,6 percento; Zoom 11,7 percento; Cisco Webex 14,8 percento (peggior automatizzato, evidenziato). Il divario tra il miglior e il peggior servizio automatizzato è 4,8 volte.Soglia SAS-LIVE 8%0%5%10%15%CART umanoOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (controllo)6,2%7,9%8,4%9,6%11,7%14,8%WER composito, tre sessioni da 60 min, NIST sclite vs. controllo CART umano
La classifica composita copre un divario di 4,8× tra il miglior e il peggior servizio automatizzato — abbastanza ampio da fare della scelta della piattaforma una decisione di accessibilità in sé, non un dettaglio di approvvigionamento. Il controllo CART umano al 3,1% (barra fantasma, in cima) stabilisce lo standard di riferimento; le evidenziazioni in rosso indicano il miglior e il peggior servizio automatizzato rispetto alla soglia di certificazione SAS-LIVE dell’8%.

La scelta tra due piattaforme di videoconferenza enterprise può significare la differenza tra un word-error rate del 6% e uno del 15%. Non è una differenza di strumenti. È una differenza di inclusione.


WER per condizione del parlante

Il WER composito nasconde la complessità. Per capire dove si rompe ciascun servizio, l’audio è stato suddiviso in quattro condizioni: inglese americano pulito con un solo oratore, oratore singolo con accento misto, passaggi densi di gergo tecnico e sovrapposizione pianificata. Gli stessi sei servizi sullo stesso audio, suddivisi per condizione:

WER MEDIO PER CONDIZIONE DEL PARLANTE — SERVIZI AUTOMATIZZATI AGGREGATI
Inglese USA pulito
circa 4,1%
Accento misto
circa 7,4%
Gergo tecnico denso
circa 8,6%
Sovrapposizione di voci (2–3 oratori)
circa 42,6%

Il grafico comprime il risultato principale in una singola immagine: la variazione di accento è una penalità reale, il gergo tecnico è una penalità maggiore, e la sovrapposizione di voci è una scogliera. Nel passaggio con sovrapposizione pianificata, il peggior servizio automatizzato è sceso a un WER superiore al 60% — soglia alla quale il trascritto è, per usare la gentile formula del rubric SAS-LIVE, «non comunicativamente affidabile».

4,1%
WER su inglese USA pulito a oratore singolo, media automatizzata
42,6%
WER su sovrapposizione pianificata, media automatizzata
10,4×
fattore di degrado — da condizione pulita a sovrapposizione
Perché la sovrapposizione di voci interrompe ogni servizio automatizzato

I pipeline di riconoscimento vocale commerciale presuppongono un unico flusso acustico per oratore. I sistemi moderni usano la diarizzazione per assegnare segmenti audio a ID oratore, ma la diarizzazione viene eseguita dopo la segmentazione — e durante la sovrapposizione, è la segmentazione stessa a fallire. Il risultato è un unico canale di output in cui due enunciati vengono fusi, producendo un trascritto grammaticalmente corretto ma fattualmente errato su chi ha detto cosa. Una trascrittrice CART umana risolve questo problema parafrasando uno degli oratori sovrapposti e prefissando l’altro con un tag nome. Nessun servizio automatizzato distribuito lo fa nel 2026.


Latenza sulla rete

La latenza è stata misurata come il tempo trascorso tra il picco della forma d’onda di una sillaba parlata e la comparsa del token corrispondente nel DOM dei sottotitoli della piattaforma, catturata tramite una registrazione schermo ad alta frequenza di fotogrammi allineata alla forma d’onda audio. Latenza mediana nelle tre sessioni:

LATENZA MEDIANA END-TO-END — MINORE È MEGLIO
Google Meet
circa 0,9 s
Microsoft Teams
circa 1,4 s
Otter.ai
circa 1,9 s
Webex
circa 2,7 s
StreamText
circa 3,8 s
Zoom (regione non USA)
circa 5,6 s

La latenza è rilevante perché la riparazione conversazionale ha una finestra temporale. La letteratura degli studi sulla sordità sulla sottotitolazione in tempo reale converge su un soffitto praticabile di circa due secondi — oltre tale soglia, un partecipante sordo non riesce a porre una domanda di chiarimento mentre è ancora pertinente. Con questo criterio, Google Meet, Teams e Otter superano la soglia; Webex si trova al limite; StreamText e Zoom no.

La latenza più elevata di StreamText è in parte architettonica — è operato da un essere umano, quindi c’è una pressione di tasto umana nel ciclo — e in parte il prezzo del suo WER più basso sul gergo tecnico. La latenza di Zoom nella nostra configurazione è più difficile da difendere; su una regione USA con la sottotitolazione cloud abilitata, benchmark pubblicati in precedenza hanno riportato mediane inferiori ai tre secondi, quindi una mediana di 5,6 s nei nostri test in regione europea riflette l’infrastruttura regionale piuttosto che il limite della piattaforma.


Nomi, gergo e il problema del glossario

Delle diciassette entità nominate nel copione, cinque erano nomi in codice inventati per questo benchmark. I cinque sono stati scelti per essere nomi di prodotto plausibili ma assenti in qualsiasi corpus pubblico: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. I primi tre sono parole inglesi comuni; gli ultimi due sono meno comuni. Ci si aspettava che anche i migliori servizi automatizzati avessero difficoltà con i casi a vocabolario raro, e così è stato.

01
Trascrittrice CART umana (briefata con glossario)
96% di recupero corretto delle entità nominate in codice
96%
02
Otter.ai (vocabolario personalizzato caricato)
71% di recupero corretto — il vocabolario personalizzato ha fatto la differenza
71%
03
Microsoft Teams (vocabolario personalizzato caricato)
59% di recupero corretto
59%
04
StreamText (operatore briefato)
52% di recupero corretto — l’operatore non aveva un glossario anticipato
52%
05
Google Meet (nessuna opzione di vocabolario personalizzato)
38% di recupero corretto
38%
06
Zoom + Webex (nessuna opzione di vocabolario personalizzato)
circa 24% di recupero corretto aggregato — ipotizzati omofoni fonetici
24%

La lezione è operativa. Il vocabolario personalizzato è la singola leva di accuratezza più significativa a disposizione di chi organizza una riunione. I tre servizi che accettano un glossario pre-caricato (Otter, Teams e le configurazioni cloud di Webex basate su Azure che non sono state testate) superano in modo affidabile quelli che non lo fanno. Quando il pubblico include partecipanti sordi o ipoudenti e la riunione comporta gergo tecnico o nomi propri, l’assenza di un’opzione per il vocabolario personalizzato è una significativa limitazione all’accessibilità, non una funzionalità di comodità mancante.

Una nota sulla certificazione SAS-LIVE

SAS-LIVE certifica un fornitore di sottotitolazione rispetto a un corpus pubblicato e a una soglia WER pubblicata (8% al momento della stesura). La certificazione è significativa come soglia minima — significa che il fornitore ha dimostrato che il proprio pipeline può superare l’8% sull’audio di certificazione — ma non è un limite massimo. Il presente benchmark ha utilizzato un corpus diverso (discorso panel con accenti misti e sovrapposizione di voci), e i servizi certificati hanno ottenuto risultati compresi tra il 6,2% (Otter) e il 9,6% (Teams) sul nostro audio. È opportuno trattare SAS-LIVE come un filtro di approvvigionamento, non come un sostituto del test sul proprio audio organizzativo.


Integrazione con le tecnologie assistive

Il WER misura se il trascritto è corretto. L’integrazione con le tecnologie assistive misura se un utente con screen reader, display braille o ingranditore per ipovedenti può effettivamente consumare il trascritto in tempo reale. Le due cose non coincidono. Un trascritto perfettamente accurato reso in un nodo DOM senza attributo aria-live è invisibile a un utente sordo-cieco su un display braille, perché la tecnologia assistiva non riceve mai il segnale che è apparso nuovo testo.

È stato effettuato un audit del pannello dei sottotitoli di ciascuna piattaforma per quattro proprietà di integrazione AT: annuncio della regione live, esportazione del trascritto al termine della riunione, controlli focalizzabili e scorciatoia da tastiera per attivare/disattivare i sottotitoli. La matrice:

01
Client web Otter.ai
Tutte e quattro: aria-live polite · esportazione · focalizzabile · tasto di attivazione
4 su 4
02
Google Meet
aria-live polite · nessuna esportazione nativa · focalizzabile · tasto di attivazione
3 su 4
03
Microsoft Teams
Nessun aria-live · esportazione disponibile · focalizzabile · tasto di attivazione
3 su 4
04
Embed StreamText
Nessun aria-live · esportazione disponibile · focus parziale · nessun tasto di attivazione
2 su 4
05
Client desktop Zoom
Nessun aria-live · esportazione disponibile · focus parziale · tasto di attivazione
2 su 4
06
Cisco Webex
Nessun aria-live · esportazione disponibile · non focalizzabile · nessun tasto di attivazione
1 su 4

La colonna dell’integrazione AT riordina la classifica in modo interessante. Otter rimane al primo posto; ma Teams, che si era classificato quarto per WER, sale a un pareggio per il secondo posto nell’integrazione AT. Webex si trova in fondo a entrambi gli assi. Un utente sordo-cieco su un display braille è attualmente servito meglio da Otter o Google Meet nella generazione attuale di prodotti.


Cosa fa ancora meglio il trascrittore CART umano

La trascrittrice CART di controllo ha superato ogni servizio automatizzato su ogni asse misurato. WER 3,1% contro il miglior automatizzato 6,2%. Recupero dei nomi in codice 96% contro il miglior automatizzato 71%. WER sulla sovrapposizione di voci circa 9% — un numero che nessun servizio automatizzato si è avvicinato di trenta punti.

Ma il vantaggio umano non è solo meccanico. Diversi comportamenti editoriali sono ancora unicamente umani. La trascrittrice ha parafrasato gli oratori che inciampavano, preservando il significato a scapito della trascrizione letterale — i servizi automatizzati o lasciano cadere la frase inciampata o la rendono come un nonsenso. Ha etichettato i turni di parola con un prefisso nome ad ogni cambio di oratore — i servizi automatizzati interleano senza attribuzione. Ha inserito una nota di chiarimento tra parentesi quadre quando un oratore ha fatto riferimento a una diapositiva che il pubblico sottotitolato non poteva vedere. Nessuna di queste mosse appare in un punteggio WER, ma ognuna è parte del motivo per cui una riunione sottotitolata da CART professionista si percepisce come accessibile in un modo che una automatizzata raramente riesce a essere.

Trascrittrice CART, debriefing post-sessione
Il momento più difficile in un panel come questo non è un accento marcato o un termine tecnico. Sono due persone che parlano contemporaneamente e una terza che interviene ridendo. Parafraso una, metto in coda l’altra e taggo la risata. La macchina non riesce a decidere quale voce tralasciare, quindi le butta entrambe nella stessa riga. Quella riga è tecnicamente sottotitolata e praticamente inutile.
— Trascrittrice CART, debriefing sessione 02, 5 maggio 2026

Il benchmark in contesto

Il risultato principale non è che un servizio ha vinto. È che il divario tra il migliore e il peggiore è abbastanza ampio da rendere la scelta della piattaforma una decisione di accessibilità in sé. Un’organizzazione che ha scelto per default Webex perché era già nello stack di approvvigionamento fornirà un trascritto con un tasso di errore più che doppio rispetto a un’organizzazione che ha scelto per default Otter — per lo stesso oratore, lo stesso copione, lo stesso audio. Non è una differenza marginale.

Il secondo risultato è che la sottotitolazione automatizzata non è ancora un sostituto del trascrittore CART umano nelle condizioni in cui l’accuratezza conta davvero: procedimenti legali, consulenze mediche, riunioni di consiglio, didattica in aula. Il divario 3,1% / 6,2% sembra piccolo su un foglio di numeri e si sente grande per un partecipante sordo che cerca di seguire una conversazione che si muove velocemente. Dove la posta in gioco giustifica il costo, un trascrittore CART umano è ancora lo standard di riferimento, e il framework di certificazione SAS-LIVE preserva esplicitamente tale gerarchia.

Il terzo risultato è operativo. Il vocabolario personalizzato è la leva di accessibilità più sottoutilizzata nelle operazioni di riunione. Tre dei sei servizi testati accettano un glossario pre-caricato. Quasi nessuna delle organizzazioni interpellate durante la progettazione di questo benchmark stava usando tale funzionalità, anche laddove era disponibile nel livello già pagato. Caricare i nomi propri e i nomi di prodotto della riunione nel servizio di sottotitolazione prima della riunione è un’attività di cinque minuti che colma la maggior parte del divario sulle entità nominate.