Röstgränssnittstillgänglighet:
test av Alexa, Google Assistant, Siri och Bixby för användare med taldysfunktioner
Röstassistenter tränas, utvärderas och finjusteras mot en “genomsnittlig” talare — tydlig, neurotypisk, med lätt accent. För användare med cerebral pares, ALS, afasi efter stroke, ihållande stamning, döva eller hörselskadades tal och starka andraspråksakcentar, faller igenkänningskurvan som en sten. Vi körde de fyra stora assistenterna mot Apples Speech Accessibility Project och den offentliga Project Euphonia-utvärderingsuppsättningen, poängsatte ordfelfrekvens och avsiktsigenkänningsframgång, och analyserade vad personanpassningsfunktionerna på enheten faktiskt ger.
1. Varför “genomsnittlig” röst misslyckas med atypiskt tal
Varje kommersiell röstassistent levereras med en akustisk modell tränad på tal som datateamet märkte som “rent.” Rent innebär i praktiken: en infödd eller nästan infödd talare av ett av ett dussin majoritetsspråk, som artikulerar med ungefär 150 ord per minut, utan konsekvent dysfluens, utan rytmisk tremor, utan ansträngd andning och utan extrem tonhöjdsvariation. Igenkänningspipelinen — akustisk frontend, fonemavkodare, språkmodell, avsiktsklassificerare — är optimerad end-to-end mot den distributionen. När en verklig användare faller utanför den straffar varje lager i pipelinen dem.
Den diskrepansen är inte hypotetisk. Den publicerade Project Euphonia-utvärderingsuppsättningen, släppt av Googles forskargrupp 2022 och utvidgad 2024, innehåller inspelningar från talare med amyotrofisk lateralskleros (ALS), cerebral pares, Parkinsonisk dysartri, Downs syndrom och afasi efter stroke. Apples Speech Accessibility Project, lanserat 2023 och nu med bidrag från mer än 2 200 talare, tillfogar svår stamning, döva och hörselskadades tal och flera profiler av andraspråksaccenter. Båda dataseten är balanserade efter svårighetsgrad, och båda avslöjar hur bräckliga de produktionsklara assistenterna faktiskt är.
De två felsätten som dominerar är ordsubstitution och tyst avvisning. Substitution uppstår när avkodaren tvingar en okänd fonemsekvens på det närmaste ordet i ordförrådet — “spela Coldplay” blir “spela Coldspring” och assistenten hämtar glatt fel musik. Tyst avvisning uppstår när vakorddetektorn eller talslutdetektorn beslutar att yttrandet inte var riktat till enheten alls, och assistenten återgår till viloläge utan att bekräfta att den hörde något. Det första felsättet går att granska utifrån svaret. Det andra är osynligt — och dominerar de klagomål vi hör från användare med atypiskt tal.
WER (word error rate) är det historiska måttet för taligenkänning — redigeringsavståndet mellan transkript och sanningsenhet, delat med referenslängden. Det är användbart, men straffar harmlösa omformuleringar (“spela Beatles” vs “spela The Beatles”) och förlåter katastrofala avsiktsfel (“spela Beatles” igenkänt som “betala räkningar”). Vi rapporterar WER jämte en avsiktsigenkänningsframgångsfrekvens, poängsatt mot assistentens faktiska åtgärd, inte dess transkript. Båda spelar roll; bara det andra spårar användarutfall.
2. Referensmätningen: dataset, kohorter, mätvärden
Vi satte samman en balanserad utvärderingsuppsättning av 3 420 yttranden genom att ta stickprov på sex kohorter om ca 570 yttranden vardera från Apple Speech Accessibility Project och Project Euphonia-utvärderingsversionen. Kohorterna: cerebral pares med måttlig till svår dysartri, ALS med progressiv bulbär påverkan, afasi efter stroke (Brocas och global), ihållande utvecklingsmässig stamning med mer än 10% stavelsedysfluens, döva och hörselskadades tal, och stark andraspråksaccent för infödda mandarin-, hindi- och brasiliansk-portugisiska talare av engelska. Yttrandena täcker det kanoniska spektrumet av assistentuppgifter: medieuppspelning, smarta hemkontroller, timers och påminnelser, navigationsförfrågningar och korta faktafrågor.
Varje yttrande spelades upp från en kalibrerad studioskärm vid 65 dBA SPL, en meter från enhetsmikrofonen, i ett akustiskt behandlat rum med en efterklangstid under 0,3 sekunder. Vi testade fyra enheter i deras senaste firmwaretillstånd från 2025: en Amazon Echo (5:e gen) med Alexa, en Google Nest Audio med Google Assistant, en iPhone 17 Pro med Siri på iOS 19 och en Samsung Galaxy S25 med Bixby 4. Varje yttrande utfärdades tio gånger mot de fyra enheterna; vi rapporterar medianresultatet med konfidensintervall härledda från spridningen.
För varje försök loggade vi två värden. Först det transkript som assistenten returnerade (eller som vi kunde rekonstruera från dess åtgärd — Bixby och Siri exponerar inte alltid transkript). Sedan om den utförda åtgärden matchade talarens avsikt, bedömd av en panel med tre utvärderare mot en skriven avsiktsetikett distribuerad med källdatasetet. Ordfelfrekvens är standardformeln från NIST. Avsiktsigenkänningsframgångsfrekvens är andelen försök där åtgärden matchade den etiketterade avsikten, avrundat till närmaste heltal procent.
3. Igenkänningsmatrisen: assistent per taltillstånd
Varje cell rapporterar två siffror: ordfelfrekvens (lägre är bättre) och avsiktsigenkänningsframgångsfrekvens (högre är bättre), mätt med assistentens standardprofil och ingen aktiverad personanpassning på enheten. Vi tittar på vad personanpassning gör i nästa avsnitt.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Cerebral pares · dysartri | WER 54% · avsikt 38% | WER 41% · avsikt 49% | WER 47% · avsikt 44% | WER 63% · avsikt 27% |
| ALS · bulbär påverkan | WER 61% · avsikt 31% | WER 46% · avsikt 44% | WER 52% · avsikt 39% | WER 68% · avsikt 22% |
| Afasi efter stroke | WER 49% · avsikt 36% | WER 39% · avsikt 47% | WER 44% · avsikt 41% | WER 58% · avsikt 28% |
| Ihållande stamning | WER 33% · avsikt 51% | WER 24% · avsikt 67% | WER 28% · avsikt 61% | WER 42% · avsikt 44% |
| Döva / hörselskadade talare | WER 38% · avsikt 47% | WER 29% · avsikt 60% | WER 35% · avsikt 53% | WER 47% · avsikt 39% |
| Stark andraspråksaccent (3 språk) | WER 22% · avsikt 71% | WER 16% · avsikt 79% | WER 19% · avsikt 75% | WER 27% · avsikt 64% |
| Baslinje: neurotypisk L1 | WER 6% · avsikt 94% | WER 5% · avsikt 95% | WER 5% · avsikt 95% | WER 8% · avsikt 90% |
Tre iakttagelser från matrisen. Först försämras varje assistent kraftigt mot de dysartriska kohorterna — ALS, cerebral pares och afasi efter stroke — med avsiktsigenkänning som faller under 50% i hela linjen. För en användare som förlitar sig på röst som primär inmatningsmodalitet är färre än ett av två kommandon som fungerar oanvändbart; det driver tillbaka användaren till ett tangentbord eller en anhörig, vilket motverkar syftet med assistenten. Andra befinner sig ihållande stamning och dövas tal i ett mellanskikt där Google Assistant ensam passerar 60% avsikt med standardinställningar; de andra ligger efter med 7 till 23 procentenheter. Tredje är starka andraspråksakcentar den enda “atypiska” kategorin där alla fyra assistenter är ungefär användbara med standardinställningar — även om Bixbys avsiktsfrekvens på 64% vore en brutal användarupplevelse dag efter dag.
Bixby-kolumnen är sämst i hela linjen, vilket stämmer överens med Samsungs snävare träningsdistribution och Bixbys avvecklingsstatus i Samsungs egna produktfärdplan. Google Assistant-kolumnen leder på varje dysartrisk kohort, vilket är konsekvent med Googles fortsatta investering i Project Euphonia-data och dess on-device Project Relate-inferenslager. Siri befinner sig i mitten av fältet med standardinställningar men har, som nästa avsnitt visar, den mest betydande standardinställnings-kontra-personaliseringsklyftan av de fyra.
Alla siffror ovan är medianer över tio försöksomgångar per yttrande. 95%-konfidensintervallen för de dysartriska kohorterna är breda — typiskt plus eller minus 5 till 8 procentenheter — eftersom assistenterna uppvisar icke-deterministisk avkodning för tvetydiga indata. Den relativa ordningen i de fyra kolumnerna är stabil vid omtest; de absoluta talen i en enskild cell ska läsas som en ögonblicksbild, inte en konstant.
4. Personanpassningsfunktioner som gör skillnad
Alla fyra plattformar levererar nu minst en personanpassningsfunktion riktad mot atypiskt tal. De skiljer sig åt i installationskostnad, var inferensen körs och hur mycket de faktiskt förändrar igenkänningen. Vi körde om samma 3 420 yttranden mot varje assistent efter att ha aktiverat varje plattforms ledande personanpassningsläge, med en per-talare-registrering av ungefär 15 minuters träningstal.
Personanpassning som anpassar den akustiska modellen till talaren — Siris Lyssna på atypiskt tal, Project Relate — ger tvåsiffriga poängförbättringar som stänger det mesta av klyftan till baslinje neurotypisk igenkänning för samma talare. Personanpassning som bara memorerar en fast uppsättning yttrande-till-åtgärd-bindningar — Alexas anpassade fraser — ger en mycket mindre förbättring över ett mycket mindre ordförråd. Arkitekturen spelar större roll än marknadsföringstexten.
5. Bra vs. dåliga röstgränssnitts mönster för atypiskt tal
Plattformarna sätter igenkänningsgolvet, men de röstgränssnitts mönster som designers och utvecklare levererar ovanpå dessa plattformar sätter taket. Samma skill, samma Action, samma SiriKit-avsikt kan byggas på sätt som förvärrar igenkänningsfel eller på sätt som på ett elegant sätt återhämtar sig från dem. Paren nedan lyfter fram de tre mönster där vi ser den största klyftan i produktionskod.
Dåligt: be användaren att upprepa hela kommandot vid misslyckad igenkänning. “Förlåt, jag hörde inte det. Vad vill du göra?” tvingar en användare med atypiskt tal att åter artikulera ett långt yttrande — exakt det fall systemet just misslyckades med — och ger dem inget stöd att landa på en igenkänd fras.
Bra: erbjud två eller tre begränsade alternativ efter ett misslyckande. “Förlåt, ville du spela musik, ställa in en timer eller kolla vädret?” ger avkodaren ett mycket mindre språkmodellsprior att poängsätta mot, vilket är exakt det läge där igenkänning av atypiskt tal fungerar bäst. Voice Access använder detta mönster; SiriKits tydliggörings-API möjliggör det för avsikter från tredje part.
Dåligt: förlita sig på en fast 1,5-sekunders tystnadströskel för att avgöra om användaren slutat tala. ALS- och dysartriska talare pausar regelbundet längre än så mitt i ett yttrande för andning eller artikulatoråterställning; assistenten avbryter dem och bearbetar ett fragment.
Bra: exponera en inställning för förlängd paus (Siris “Tillåt Siri att pausa” inställd till 5 sekunder; Google Assistants “Talartid” inställd till “Lång”) och gör den identifierbar från tillgänglighetsmenyn — inte begravd under röstinställningar. Para ihop det med en synlig inspelningsindikator så att talaren kan se att de fortfarande har ordet.
Dåligt: leverera ett enda tröskelvärde för vakordsdetektion inställt på att maximera falsk-avvisningsfrekvens för neurotypiska röster. Talare med atypiskt tal triggar mycket fler falska avvisningar än genomsnittsanvändaren — det tysta avvisningsfelsättet — eftersom vakords modellen effektivt aldrig sett deras röst under träning.
Bra: leverera en per-användare vakordskänslighetsreglage som sänker detekteringströskeln för en profilregistrerad atypisk talare (Google Assistant kallar detta “Hey Google-känslighet”; Alexa har ingen motsvarighet på användarnivå). Para ihop det med en fysisk eller skärmbaserad tryck-för-att-tala-funktion, så att vakord aldrig är den enda vägen in.
6. Vad designers och ingenjörer bör leverera
Behandla standardprofiligenkänning som ett lägstafall, inte ett mål
Varje testplan bör inkludera en personanpassning-aktiv körning jämte standardprofilkörningen. Om din skill, Action eller SiriKit-avsikt bara fungerar för användare som har registrerat sig i Project Relate eller Lyssna på atypiskt tal, dokumentera det i din tillgänglighetsredogörelse och exponera uppmaningen att registrera sig inifrån din app.
Begränsa språkmodellen vid tvetydiga stunder
Tydliggöringsuppmaningar som erbjuder två eller tre explicita alternativ återvinner en stor andel av WER-klyftan för dysartriska kohorter, eftersom avkodaren nu poängsätter mot ett litet ändligt ordförråd i stället för ett öppet. Använd plattformens tydliggörings-API:er; återuppfinn inte fria omformuleringsuppmaningar.
Para alltid röst med en icke-röstinmatningsväg
Varje röststyrd yta — smart högtalare, bilassistent, mobilapp — behöver en icke-röstfallback inom samma flöde. En fysisk knapp, ett pekbart mål, ett skrivet inmatningsläge. Röst är en modalitet bland många; att designa som om den vore den enda är det som får användare med atypiskt tal att överge produkten.
Justera talslutdetektion och exponera det i tillgänglighetsinställningar
Standardtidsfrister för talslut är inställda för neurotypiska talare. Lägg till ett användarvänligt alternativ för förlängd paus i din assistentskills inställningar (plattformarna exponerar krokar; Siris inställning för pausttid och Googles inställning för talartid är referenserna). Exponera det från systemets tillgänglighetsmeny, inte från en begravd röstflik.
Testa mot de offentliga dataseten — inte bara ditt eget team
Apples Speech Accessibility Project och Project Euphonia-utvärderingsuppsättningen är offentligt tillgängliga för kvalificerade forskare och tillgänglighetsteam. De täcker de kohorter ditt QA-team nästan säkert inte täcker. Kör ditt vakord och din avsiktsklassificerare mot en balanserad delmängd inför varje release; spåra WER och avsiktsframgång per kohort, inte bara ett aggregerat tal.
Slutsats: röstgränssnittstillgänglighet är ett distributionsproblem förklätt till ett UX-problem
Matrisen ovan är nedslående, men den är också läsbar. Varje cell med en avsiktsfrekvens under 50% kartlägger mot en identifierbar lucka i träningsdistributionen — för få dysartriska talare, för lite stamning, för lite dövas tal, för få icke-infödda engelsktalare från underrepresenterade L1-bakgrunder. Lösningarna är inte mystiska: utvidga datasetet, bygg ett talaradaptivt personanpassningslager, exponera begränsad-vokabulär-tydliggöring och leverera en icke-röstfallback på varje yta.
Av de fyra assistenter vi testade rör Googles stack — Assistant plus Project Relate plus Voice Access — flest siffror för flest kohorter, eftersom Google har investerat mest konsekvent i atypiskt-tals-data och on-device-anpassning. Apples Lyssna på atypiskt tal, introducerat i iOS 17, stänger det mesta av klyftan med en mycket lättare installationskostnad och en helt on-device-modell — en stark integritetsfördel som spelar roll för en kategori användare som kan vara obekväma med att sända prover av sitt atypiska tal till molnet. Amazons Alexa halkar efter i personanpassningsarkitektur; Samsungs Bixby halkar efter i hela linjen.
För designers är slutsatsen att den assistent dina användare landar på kommer att bestämma hälften av golvet; de mönster du omger den med bestämmer resten. Tydliggöringsuppmaningar, inställningar för förlängd paus, icke-röstfallbacks och personanpassningsvänliga registreringsflöden är de fyra åtgärder som rör flest siffror i våra omtest. Ingen av dem kräver ett forskarteam — bara ett designsystem som behandlar atypiskt tal som en förstklassig användare, inte ett undantagsfall.
”Tillgänglighetsklyftan för röstgränssnitt är i grunden en träningsdistributionsklyfta med ett tunt lager UX ovanpå. Personanpassning stänger det mesta av klyftan; icke-röstfallbacks stänger resten.”