Accessibilità dell’interfaccia vocale:
test di Alexa, Google Assistant, Siri e Bixby per utenti con disabilità del linguaggio
Gli assistenti vocali vengono addestrati, valutati e ottimizzati per un parlante «medio» — chiaro, neurotipico, con accento lieve. Per gli utenti con paralisi cerebrale, SLA, afasia post-ictus, balbuzie persistente, linguaggio di persone sorde o ipoudenti e forti accenti di seconda lingua, la curva di riconoscimento crolla. Abbiamo testato i quattro principali assistenti sui dataset di Apple Speech Accessibility Project e dell’insieme di valutazione pubblico di Project Euphonia, misurato il tasso di errore parola per parola e il tasso di successo nel riconoscimento dell’intenzione, e analizzato nel dettaglio cosa offre concretamente la personalizzazione sul dispositivo.
1. Perché la voce «media» fallisce con il linguaggio atipico
Ogni assistente vocale commerciale viene distribuito con un modello acustico addestrato su un parlato che il team dei dati ha etichettato come «pulito». In pratica, pulito significa: un parlante madrelingua o quasi madrelingua di una delle dozzine di lingue maggiori, che articola a circa 150 parole al minuto, senza disfluenze costanti, senza tremore ritmico, senza pausa respiratoria prolungata e senza estrema variazione di tono. La pipeline di riconoscimento — front-end acustico, decodificatore fonemico, modello linguistico, classificatore di intenzioni — è ottimizzata end-to-end rispetto a questa distribuzione. Quando un utente reale ne esula, ogni livello della pipeline lo penalizza.
Questo disallineamento non è ipotetico. L’insieme di valutazione pubblico di Project Euphonia, pubblicato dal team di ricerca di Google nel 2022 e ampliato nel 2024, contiene registrazioni di parlanti con sclerosi laterale amiotrofica (SLA), paralisi cerebrale, disartria parkinsoniana, sindrome di Down e afasia post-ictus. Apple Speech Accessibility Project, lanciato nel 2023 e che ora incorpora contributi di oltre 2.200 parlanti, aggiunge la balbuzie grave, il linguaggio di persone sorde o ipoudenti e diversi profili di accento di seconda lingua. Entrambi i dataset sono campionati in modo equilibrato per gravità, ed entrambi rivelano quanto siano fragili gli assistenti commerciali nella pratica.
Le due modalità di fallimento prevalenti sono la sostituzione di parole e il rifiuto silenzioso. La sostituzione si verifica quando il decodificatore forza una sequenza fonemica sconosciuta verso la parola in vocabolario più simile — «metti i Coldplay» diventa «metti un Coldspring» e l’assistente recupera allegramente la musica sbagliata. Il rifiuto silenzioso si verifica quando il rilevatore di wake-word o il rilevatore di fine enunciato decide che l’enunciato non era diretto al dispositivo e l’assistente torna in standby senza confermare di aver sentito nulla. La prima modalità di fallimento è verificabile dalla risposta. La seconda è invisibile — e domina i reclami che riceviamo dagli utenti con linguaggio atipico.
Il WER è la metrica storica per il riconoscimento vocale — la distanza di modifica tra trascrizione e testo di riferimento, divisa per la lunghezza del riferimento. È utile, ma penalizza le parafrasi innocue («metti i Beatles» vs «metti Beatles») e ignora i fallimenti catastrofici dell’intenzione («metti i Beatles» riconosciuto come «paga le bollette»). Riportiamo il WER insieme al tasso di successo nel riconoscimento dell’intenzione, valutato rispetto all’azione effettiva dell’assistente, non alla sua trascrizione. Entrambi contano; solo il secondo tiene traccia dei risultati per l’utente.
2. Il benchmark: dataset, coorti, metriche
È stato assemblato un insieme di valutazione bilanciato di 3.420 enunciati campionando sei coorti di circa 570 enunciati ciascuna dall’Apple Speech Accessibility Project e dalla release di valutazione di Project Euphonia. Le coorti: paralisi cerebrale con disartria da moderata a grave, SLA con coinvolgimento bulbare progressivo, afasia post-ictus (di Broca e globale), balbuzie evolutiva persistente con percentuale di disfluenza sillabica superiore al 10%, linguaggio di persone sorde o ipoudenti e forte accento di seconda lingua per parlanti madrelingua cinese mandarino, hindi e portoghese brasiliano dell’inglese. Gli enunciati coprono lo spettro canonico dei compiti per assistenti: riproduzione multimediale, controllo della casa intelligente, timer e promemoria, query di navigazione e brevi domande fattuali.
Ogni enunciato è stato riprodotto da un monitor da studio calibrato a 65 dBA SPL, a un metro dal microfono del dispositivo, in una stanza trattata acusticamente con un tempo di riverberazione inferiore a 0,3 secondi. Sono stati testati quattro dispositivi nel loro stato firmware di fine 2025: un Amazon Echo (5ª generazione) con Alexa, un Google Nest Audio con Google Assistant, un iPhone 17 Pro con Siri su iOS 19 e un Samsung Galaxy S25 con Bixby 4. Ogni enunciato è stato emesso dieci volte su ciascuno dei quattro dispositivi; si riporta la mediana delle esecuzioni, con intervalli di confidenza derivati dalla dispersione.
Per ogni prova sono stati registrati due valori. Primo, la trascrizione restituita dall’assistente (o che si è potuto ricostruire dalla sua azione — Bixby e Siri non espongono sempre le trascrizioni). Secondo, se l’azione eseguita corrispondeva all’intenzione del parlante, giudicata da un panel di tre valutatori rispetto a un’etichetta di intenzione scritta distribuita con il dataset di origine. Il tasso di errore parola per parola è calcolato con la formula standard NIST. Il tasso di successo nel riconoscimento dell’intenzione è la frazione di prove in cui l’azione corrispondeva all’intenzione etichettata, arrotondata alla percentuale intera più vicina.
3. La matrice di riconoscimento: assistente per condizione linguistica
Ogni cella riporta due valori: tasso di errore parola per parola (più basso è meglio) e tasso di successo nel riconoscimento dell’intenzione (più alto è meglio), misurati con il profilo predefinito dell’assistente e senza alcuna personalizzazione sul dispositivo abilitata. Nella sezione successiva si vedrà cosa comporta la personalizzazione.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Paralisi cerebrale · disartria | WER 54% · intenzione 38% | WER 41% · intenzione 49% | WER 47% · intenzione 44% | WER 63% · intenzione 27% |
| SLA · coinvolgimento bulbare | WER 61% · intenzione 31% | WER 46% · intenzione 44% | WER 52% · intenzione 39% | WER 68% · intenzione 22% |
| Afasia post-ictus | WER 49% · intenzione 36% | WER 39% · intenzione 47% | WER 44% · intenzione 41% | WER 58% · intenzione 28% |
| Balbuzie persistente | WER 33% · intenzione 51% | WER 24% · intenzione 67% | WER 28% · intenzione 61% | WER 42% · intenzione 44% |
| Linguaggio sordo / ipoudente | WER 38% · intenzione 47% | WER 29% · intenzione 60% | WER 35% · intenzione 53% | WER 47% · intenzione 39% |
| Forte accento L2 (3 lingue) | WER 22% · intenzione 71% | WER 16% · intenzione 79% | WER 19% · intenzione 75% | WER 27% · intenzione 64% |
| Baseline: L1 neurotipico | WER 6% · intenzione 94% | WER 5% · intenzione 95% | WER 5% · intenzione 95% | WER 8% · intenzione 90% |
Tre osservazioni dalla matrice. In primo luogo, ogni assistente degrada sensibilmente sulle coorti disartriche — SLA, paralisi cerebrale e afasia post-ictus — con il riconoscimento dell’intenzione che scende sotto il 50% su tutta la linea. Per un utente che si affida alla voce come modalità di input principale, meno di un comando su due che funziona è inutilizzabile; costringe l’utente a tornare alla tastiera o a un caregiver, vanificando lo scopo dell’assistente. In secondo luogo, la balbuzie persistente e il linguaggio di persone sorde si collocano in una fascia intermedia in cui solo Google Assistant supera il 60% di intenzione con le impostazioni predefinite; gli altri sono in ritardo di 7-23 punti percentuali. In terzo luogo, i forti accenti di seconda lingua sono l’unica categoria «atipica» in cui tutti e quattro gli assistenti sono grosso modo utilizzabili con le impostazioni predefinite — anche se anche lì, il tasso di intenzione del 64% di Bixby sarebbe un’esperienza utente brutale giorno dopo giorno.
La colonna Bixby è la peggiore su tutti i fronti, il che è coerente con la distribuzione di addestramento più ristretta di Samsung e lo stato deprecato di Bixby nella roadmap di prodotto di Samsung stessa. La colonna Google Assistant è al primo posto su tutte le coorti disartriche, il che è coerente con il costante investimento di Google nei dati di Project Euphonia e nel suo livello di inferenza on-device di Project Relate. Siri si colloca a metà campo con le impostazioni predefinite, ma — come mostra la sezione successiva — presenta il divario predefinito-personalizzazione più significativo dei quattro.
Tutti i numeri sopra riportati sono mediane su dieci esecuzioni per enunciato. Gli intervalli di confidenza al 95% sulle coorti disartriche sono ampi — tipicamente più o meno 5-8 punti percentuali — perché gli assistenti mostrano una decodifica non deterministica per gli input ambigui. L’ordine relativo delle quattro colonne è stabile nelle riesecuzioni; i valori assoluti in una singola cella vanno letti come un’istantanea, non come una costante.
4. Funzionalità di personalizzazione che spostano i numeri
Tutte e quattro le piattaforme includono oggi almeno una funzionalità di personalizzazione rivolta al linguaggio atipico. Si differenziano per il costo di configurazione, per dove viene eseguita l’inferenza e per quanto modifichino effettivamente il riconoscimento. Sono stati rieseguiti gli stessi 3.420 enunciati su ciascun assistente dopo aver abilitato la modalità di personalizzazione di punta di ogni piattaforma, con un’iscrizione per parlante di circa 15 minuti di parlato di addestramento.
La personalizzazione che adatta il modello acustico al parlante — Siri con Ascolto per linguaggio atipico, Project Relate — produce aumenti a due cifre che colmano gran parte del divario rispetto al riconoscimento neurotipico di base per lo stesso parlante. La personalizzazione che memorizza solo un insieme fisso di associazioni enunciato-azione — le frasi personalizzate di Alexa — produce un miglioramento molto più limitato su un vocabolario molto più ristretto. L’architettura conta più del testo marketing.
5. Pattern voice-UI corretti e scorretti per il linguaggio atipico
Le piattaforme stabiliscono il limite inferiore del riconoscimento, ma i pattern voice-UI che designer e sviluppatori costruiscono sopra quelle piattaforme determinano il limite superiore. La stessa skill, la stessa Action, lo stesso intent SiriKit possono essere realizzati in modi che amplificano il fallimento del riconoscimento o in modi che si riprendono con grazia da esso. Le coppie seguenti evidenziano i tre pattern in cui si osserva il divario maggiore nel codice in produzione.
Sbagliato: chiedere all’utente di ripetere l’intero comando in caso di riconoscimento fallito. «Scusa, non ho capito. Cosa vorresti fare?» costringe un utente con linguaggio atipico a riarticolare un lungo enunciato — esattamente il caso in cui il sistema ha appena fallito — senza dargli alcun sostegno per attivare una frase riconosciuta.
Corretto: offrire due o tre opzioni limitate dopo un fallimento. «Scusa, volevi riprodurre musica, impostare un timer o controllare il meteo?» fornisce al decodificatore un prior del modello linguistico molto più piccolo su cui fare il punteggio — esattamente il regime in cui il riconoscimento del linguaggio atipico performa meglio. Voice Access usa questo pattern; la API di disambiguazione di SiriKit lo abilita per gli intent di terze parti.
Sbagliato: affidarsi a una soglia di silenzio rigida di 1,5 secondi per decidere che l’utente ha finito di parlare. I parlanti con SLA e disartria fanno regolarmente pause più lunghe di quella a metà enunciato per respirare o ripristinare l’articolatore; l’assistente li interrompe ed elabora un frammento.
Corretto: esporre un’impostazione di pausa estesa (Siri con «Consenti a Siri di fare pause» impostato su 5 secondi; Google Assistant con «Tempo di parola» impostato su «Lungo») e renderla facilmente accessibile dal menu Accessibilità — non nascosta nelle impostazioni Voce. Abbinare con un indicatore di registrazione visibile in modo che il parlante possa vedere di avere ancora il microfono aperto.
Sbagliato: distribuire una singola soglia di rilevamento della wake-word ottimizzata per massimizzare il tasso di falsi rifiuti su voci neurotipiche. I parlanti con linguaggio atipico attivano molti più falsi rifiuti dell’utente medio — la modalità di fallimento del rifiuto silenzioso — perché il modello della wake-word non ha mai visto concretamente la loro voce durante l’addestramento.
Corretto: distribuire un cursore di sensibilità della wake-word per utente che abbassa la soglia di rilevamento per un profilo di parlante con linguaggio atipico iscritto (Google Assistant chiama questa funzione «Sensibilità Hey Google»; Alexa non ha un equivalente a livello utente). Abbinare con un pulsante fisico o un target touch per attivare il microfono tramite tocco, in modo che la wake-word non sia mai l’unico modo per accedere.
6. Cosa designer e ingegneri dovrebbero implementare
Trattare il riconoscimento con profilo predefinito come un limite inferiore del caso peggiore, non come un obiettivo
Ogni piano di test dovrebbe includere un’esecuzione con personalizzazione abilitata accanto all’esecuzione con profilo predefinito. Se la propria skill, Action o intent SiriKit funziona solo per gli utenti iscritti a Project Relate o ad Ascolto per linguaggio atipico, documentarlo nella dichiarazione di accessibilità e far emergere il prompt per iscriversi dall’interno della propria app.
Vincolare il modello linguistico nei momenti di ambiguità
Le richieste di disambiguazione che offrono due o tre opzioni esplicite recuperano una grande parte del divario di WER sulle coorti disartriche, perché il decodificatore ora assegna un punteggio rispetto a un vocabolario finito minuscolo anziché a uno aperto. Usare le API di disambiguazione della piattaforma; non reinventare nuove richieste in forma libera.
Abbinare sempre la voce a un percorso di input non vocale
Ogni superficie controllabile tramite voce — smart speaker, assistente in auto, app mobile — ha bisogno di un percorso alternativo non vocale all’interno dello stesso flusso. Un pulsante fisico, un target touch, una modalità di input testuale. La voce è una modalità tra le tante; progettare come se fosse l’unica è ciò che fa abbandonare il prodotto agli utenti con linguaggio atipico.
Ottimizzare il rilevamento di fine enunciato e renderlo visibile nelle impostazioni di accessibilità
I timeout predefiniti di fine enunciato sono ottimizzati per i parlanti neurotipici. Aggiungere un’opzione di pausa estesa rivolta all’utente nelle impostazioni della propria skill di assistente (le piattaforme espongono hook; l’impostazione Tempo di pausa di Siri e l’impostazione Tempo di parola di Google sono i riferimenti). Renderla visibile dal menu Accessibilità di sistema, non da una scheda Voce nascosta.
Testare con i dataset pubblici — non solo con il proprio team
Apple Speech Accessibility Project e l’insieme di valutazione di Project Euphonia sono disponibili al pubblico per ricercatori qualificati e team di accessibilità. Coprono le coorti che il proprio team di QA quasi certamente non ha. Eseguire il classificatore di wake-word e intent su un sottoinsieme bilanciato prima di ogni release; tracciare WER e successo per intent per coorte, non solo un numero aggregato.
Conclusioni: l’accessibilità dell’interfaccia vocale è un problema di distribuzione travestito da problema UX
La matrice sopra riportata è sobria, ma è anche leggibile. Ogni cella con un tasso di intenzione inferiore al 50% corrisponde a una lacuna riconoscibile nella distribuzione di addestramento — troppo pochi parlanti disartrici, poca balbuzie, poco linguaggio di persone sorde, troppo pochi parlanti non madrelingua inglesi provenienti da background L1 sottorappresentati. Le correzioni non sono misteriose: ampliare il dataset, costruire un livello di personalizzazione adattivo per parlante, esporre la disambiguazione con vocabolario ristretto e distribuire un percorso alternativo non vocale su ogni superficie.
Dei quattro assistenti testati, lo stack di Google — Assistant più Project Relate più Voice Access — sposta il maggior numero di valori sul maggior numero di coorti, perché Google ha investito nel modo più coerente nei dati per il linguaggio atipico e nell’adattamento on-device. Ascolto per linguaggio atipico di Apple, introdotto in iOS 17, colma gran parte del divario con un costo di configurazione molto inferiore e un modello interamente on-device — una storia di privacy forte che conta per una categoria di utenti che potrebbe essere a disagio nel trasmettere campioni del proprio linguaggio atipico a un cloud. Alexa di Amazon è in ritardo nell’architettura di personalizzazione; Bixby di Samsung è in ritardo su tutta la linea.
Per i designer, la conclusione è che l’assistente su cui atterrano gli utenti determinerà metà del limite inferiore; i pattern costruiti intorno ad esso determineranno il resto. Le richieste di disambiguazione, le impostazioni di pausa estesa, i percorsi alternativi non vocali e i flussi di iscrizione orientati alla personalizzazione sono i quattro interventi che spostano il maggior numero di valori nelle riesecuzioni. Nessuno di essi richiede un team di ricerca — solo un design system che tratti il linguaggio atipico come un utente di prima classe, non come un caso limite.
«Il divario di accessibilità dell’interfaccia vocale è principalmente un divario nella distribuzione di addestramento con un sottile strato di UX sopra. La personalizzazione colma la maggior parte del divario; i percorsi alternativi non vocali colmano il resto.»