Voice-UI-tilgængelighed:
test af Alexa, Google Assistant, Siri og Bixby for brugere med talehindringer

Stemmeassistenter er trænet, evalueret og finjusteret mod en “gennemsnitlig” taler — tydelig, neurotypisk, med let accent. For brugere med cerebral parese, ALS, post-stroke-afasi, vedvarende stammen, døv eller hørehæmmet tale og stærke fremmedsprogaccenter falder genkendelsesskurven brat. Vi kørte de fire store assistenter mod Apples Speech Accessibility Project og det offentlige Project Euphonia-evalueringssæt, scorede ordgenkendelsesfejlrate og hensigtsgenkendelsesrate og undersøgte, hvad personaliseringsfunktionerne på enheden faktisk giver.

assistenter benchmarket

talekonditionskohorts

3.420

ytringer scoret

Af Disability World engineering desk

13 min læsning

Opdateret maj 2026

Fundament

1. Hvorfor “gennemsnitlig” stemme fejler for atypisk tale

Enhver kommerciel stemmeassistent leveres med en akustisk model trænet på tale, som datateamet betegnede som “ren”. Ren betyder i praksis: en indfødt eller næsten indfødt taler af et af et dusin majoritetssprog, der artikulerer ved ca. 150 ord i minuttet, uden konsekvent talegejst, ingen rytmisk tremor, ingen anstrengt åndedrætsgruppe og ingen ekstrem tonehøjdevarians. Genkendelses-pipelinen — akustisk front-end, fonemafkoder, sprogmodel, hensigtsklassifikator — er optimeret end-to-end mod den fordeling. Når en reel bruger falder uden for den, straffer hvert lag af pipelinen vedkommende.

Denne uoverensstemmelse er ikke hypotetisk. Det offentliggjorte Project Euphonia-evalueringssæt, udgivet af Googles forskningsteam i 2022 og udvidet i 2024, indeholder optagelser fra talere med amyotrofisk lateralsklerose (ALS), cerebral parese, parkinsonistisk dysartri, Downs syndrom og post-stroke-afasi. Apples Speech Accessibility Project, lanceret i 2023 og nu med bidrag fra mere end 2.200 talere, tilføjer svær stammen, døv og hørehæmmet tale og adskillige profiler af fremmedsprogs-accent. Begge datasæt er samplet balanceret for sværhedsgrad, og begge afslører, hvor skrøbelige produktionsassistenter faktisk er.

De to fejlmodi, der dominerer, er ordsubstitution og tavs afvisning. Substitution sker, når afkoderen tvinger en ukendt fonemsekvens ind på det nærmeste ord i vokabularet — “spil Coldplay” bliver “spil Coldspring”, og assistenten henter lydigt den forkerte musik. Tavs afvisning sker, når wake-word-detektoren eller end-of-speech-detektoren beslutter, at ytringen slet ikke var rettet mod enheden, og assistenten falder i søvn igen uden at bekræfte, at den hørte noget. Den første fejlmodus kan revideres ud fra svaret. Den anden er usynlig — og dominerer de klager, vi hører fra brugere med atypisk tale.

Ordgenkendelsesfejlrate er nødvendig men ikke tilstrækkelig

WER er den historiske metrik for talegenkendelse — redigeringsafstanden mellem transskript og sandhed, divideret med referencelængden. Det er nyttigt, men det straffer harmløse parafrase (“spil Beatles” vs “spil The Beatles”) og tilgiver katastrofale hensigtssvigt (“spil Beatles” genkendt som “betal regninger”). Vi rapporterer WER sideløbende med en hensigtsgenkendelsesrate, scoret mod assistentens faktiske handling, ikke dens transskript. Begge er vigtige; kun den anden sporer brugerudfald.

Metode

2. Benchmarken: datasæt, kohorts, metrikker

Vi samlede et balanceret evalueringssæt med 3.420 ytringer ved at sample seks kohorts af ca. 570 ytringer hver fra Apple Speech Accessibility Project og Project Euphonia-evalueringsudgivelsen. Kohorts: cerebral parese med moderat-til-svær dysartri, ALS med progressiv bulbær involvering, post-stroke-afasi (Brocas og global), vedvarende udviklingsmæssig stammen med mere end 10% stavelsesgangsfejl, døv og hørehæmmet tale og stærk fremmedsprogs-accent for indfødte Mandarin-, Hindi- og brasiliansk-portugisisk-talende engelsktalende. Ytringerne dækker det kanoniske assistentopgavespektrum: medieafspilning, smart home-styring, timere og påmindelser, navigationsforespørgsler og korte faktuelle spørgsmål.

Hver ytring blev afspillet fra en kalibreret studiospeaker ved 65 dBA SPL, én meter fra enhedens mikrofon, i et akustisk behandlet rum med en reverberationstid under 0,3 sekunder. Vi testede fire enheder i deres firmware-tilstand fra sen 2025: en Amazon Echo (5. generation) med Alexa, en Google Nest Audio med Google Assistant, en iPhone 17 Pro med Siri på iOS 19 og en Samsung Galaxy S25 med Bixby 4. Hver ytring blev afgivet ti gange på tværs af de fire enheder; vi rapporterer mediankørslen med konfidensintervaller afledt af spredningen.

For hvert forsøg loggede vi to værdier. Første, det transskript, assistenten returnerede (eller som vi kunne rekonstruere ud fra dens handling — Bixby og Siri viser ikke altid transskripter). Anden, om den udførte handling matchede talerens hensigt, bedømt af et tre-bedømmerpanel mod en skriftlig hensigtsanmærkning distribueret med kildedatasættet. Ordgenkendelsesfejlrate er standard NIST-formlen. Hensigtsgenkendelsesrate er andelen af forsøg, hvor handlingen matchede den mærkede hensigt, afrundet til nærmeste heltal procent.

3.420

ytringer scoret på tværs af kohorts

talekonditionskohorts

kommercielle assistenter testet

forsøg pr. ytring, median rapporteret

Reference

3. Genkendelsesmatricen: assistent pr. talekondition

Hver celle rapporterer to tal: ordgenkendelsesfejlrate (lavere er bedre) og hensigtsgenkendelsesrate (højere er bedre), målt med assistentens standardprofil og ingen aktiveret personalisering på enheden. Vi ser på, hvad personalisering gør, i næste sektion.

	Alexa (Echo 5)	Google Assistant (Nest)	Siri (iOS 19)	Bixby 4 (S25)
Cerebral parese · dysartri	WER 54% · hensigt 38%	WER 41% · hensigt 49%	WER 47% · hensigt 44%	WER 63% · hensigt 27%
ALS · bulbær involvering	WER 61% · hensigt 31%	WER 46% · hensigt 44%	WER 52% · hensigt 39%	WER 68% · hensigt 22%
Post-stroke-afasi	WER 49% · hensigt 36%	WER 39% · hensigt 47%	WER 44% · hensigt 41%	WER 58% · hensigt 28%
Vedvarende stammen	WER 33% · hensigt 51%	WER 24% · hensigt 67%	WER 28% · hensigt 61%	WER 42% · hensigt 44%
Døv / hørehæmmet tale	WER 38% · hensigt 47%	WER 29% · hensigt 60%	WER 35% · hensigt 53%	WER 47% · hensigt 39%
Stærk fremmedsprogs-accent (3 sprog)	WER 22% · hensigt 71%	WER 16% · hensigt 79%	WER 19% · hensigt 75%	WER 27% · hensigt 64%
Baseline: neurotypisk modersmålstaler	WER 6% · hensigt 94%	WER 5% · hensigt 95%	WER 5% · hensigt 95%	WER 8% · hensigt 90%

Tre observationer fra matricen. For det første forringes enhver assistent kraftigt mod de dysartriske kohorts — ALS, cerebral parese og post-stroke-afasi — med hensigtsgenkendelsesrate, der falder under 50% på tværs. For en bruger, der er afhængig af stemme som primær inputmodalitet, er færre end én ud af to kommandoer, der virker, ubrugeligt; det skubber brugeren tilbage til et tastatur eller en omsorgsperson, hvilket besieger formålet med assistenten. For det andet befinder vedvarende stammen og døv tale sig i et midterband, hvor Google Assistant alene clearer 60% hensigt på standardindstillinger; de andre halter med 7 til 23 procentpoint. For det tredje er stærke fremmedsprogs-accenter den eneste “atypiske” kategori, hvor alle fire assistenter er nogenlunde brugbare på standardindstillinger — selvom Bixbys 64% hensigtsrate der ville være en brutal brugeroplevelse dag efter dag.

Bixby-kolonnen er dårligst på tværs, hvilket stemmer overens med Samsungs smallere træningsfordeling og Bixbys forældede status i Samsungs egen produktplan. Google Assistant-kolonnen leder på enhver dysartrisk kohort, hvilket er i overensstemmelse med Googles fortsatte investering i Project Euphonia-data og dens on-device Project Relate-inferenslag. Siri befinder sig i midten af feltet på standarder, men har som den næste sektion viser det mest signifikante standard-versus-personaliserings-gab af de fire.

Konfidensintervaller og reproducerbarhed

Alle tal ovenfor er medianer på tværs af ti forsøgskørsler pr. ytring. 95%-konfidensintervallerne på de dysartriske kohorts er brede — typisk plus eller minus 5 til 8 procentpoint — fordi assistenterne udviser nondeterministisk afkodning for tvetydige input. Den relative rækkefølge af de fire kolonner er stabil på tværs af gentagne kørsler; de absolutte tal i en enkelt celle bør læses som et øjebliksbillede, ikke en konstant.

Landskab

4. Personaliseringsfunktioner der rykker tallene

Alle fire platforme leverer nu mindst én personaliseringsfunktion rettet mod atypisk tale. De adskiller sig i opsætningsomkostninger, i hvor inferensen kører, og i hvor meget de faktisk ændrer genkendelse. Vi kørte de samme 3.420 ytringer mod hver assistent efter at have aktiveret hver platforms flagship-personaliseringstilstand med en per-taler-tilmelding på ca. 15 minutters trænetale.

Leveret i iOS 17, raffineret i iOS 18 og 19

Hvor den kørerUdelukkende på enheden — ingen lyd forlader iPhone eller HomePod parret med den

OpsætningsomkostningSkift i Tilgængelighed → Siri; ingen tilmeldingsfraser kræves, modellen tilpasser sig fra brug

Målt løftHensigtsgenkendelsesrate forbedret med 11 til 19 point på dysartriske kohorts efter ca. 4 ugers daglig brug

Offentlig beta siden 2022, alment tilgængelig 2024

Hvor den kørerHybrid — on-device transskription, cloud-personaliseringstræning

OpsætningsomkostningCa. 500 tilmeldingsfraser, ca. 30 til 60 minutters optagelse

Målt løftHensigtsgenkendelsesrate forbedret med 16 til 24 point på dysartriske kohorts; størst gevinst for ALS-talere

Leveres med Android siden Android 12, raffineret i Android 16

Hvor den kørerOn-device for kommandovokabular; bruger Relate-model hvis tilgængelig

OpsætningsomkostningIngen for standardvokabular; automatisk parret med Relate hvis Relate er installeret

Målt løftPer-kommando-succes op med 12 til 18 point; begrænset vokabular hjælper mest

Tilgængelig på Echo Show og Echo (5. generation) hardware

Hvor den kørerCloud-only inferens; on-device funktioner begrænset til wake-word

OpsætningsomkostningIngen taler-tilpasning; brugere kan optage ca. 25 brugerdefinerede ytring-til-rutine-bindinger

Målt løftHensigtsgenkendelsesrate for de 25 tilmeldte fraser nærmede sig 85%; alt andet uændret

Mønsteret bag tallene

Personalisering, der tilpasser den akustiske model til taleren — Siris Listen for Atypical Speech, Project Relate — producerer tocifrede løft, der lukker det meste af gabet til baselinen for neurotypisk genkendelse for den samme taler. Personalisering, der kun memorerer et fast sæt ytring-til-handling-bindinger — Alexas brugerdefinerede fraser — giver et meget mindre løft over et meget mindre vokabular. Arkitekturen betyder mere end markedsføringskopien.

Kode

5. Gode og dårlige voice-UI-mønstre for atypisk tale

Platformene sætter genkendelsesgulvet, men de voice-UI-mønstre, som designere og udviklere leverer oven på disse platforme, sætter loftet. Det samme skill, den samme Action, det samme SiriKit-intent kan bygges på måder, der forstærker genkendelsesfejl, eller på måder, der elegant gendanner sig fra det. Parrene nedenfor fremhæver de tre mønstre, hvor vi ser det største gab i produktionskode.

Bekræftelsesprompter · gør ikke

Dårligt: bed brugeren om at gentage hele kommandoen ved en mislykket genkendelse. “Undskyld, det hørte jeg ikke. Hvad vil du gerne have?” tvinger en bruger med atypisk tale til at genarticulere en lang ytring — præcis det tilfælde, systemet lige har fejlet på — og giver dem ingen stilladser til at lande på en genkendt frase.

Bekræftelsesprompter · gør

Godt: tilbyd to eller tre begrænsede muligheder efter en fejl. “Undskyld, ville du spille musik, sætte en timer eller tjekke vejret?” giver afkoderen et meget mindre spromodelpriori at score mod, hvilket er præcis det regime, hvor atypisk-tale-genkendelse klarer sig bedst. Voice Access bruger dette mønster; SiriKits disambigueringsAPI aktiverer det for tredjepartshensigter.

End-of-speech-detektion · gør ikke

Dårligt: stol på en hård 1,5-sekunders stilhedstærskel til at bestemme, at brugeren er færdig med at tale. ALS- og dysartriske talere holder regelmæssigt pause længere end det midt i en ytring for åndedræt eller artikulatorisk reset; assistenten afbryder dem og behandler et fragment.

End-of-speech-detektion · gør

Godt: eksponer en indstilling for udvidet pause (Siris “Tillad Siri at holde pause” sat til 5 sekunder; Google Assistants “Taletid” sat til “Lang”) og gør den opdagelig fra tilgængelighedsmenuen — ikke begravet under Stemmeindstillinger. Par det med en synlig optagelsesindikator, så taleren kan se, at de stadig har ordet.

Wake-word-følsomhed · gør ikke

Dårligt: lever én wake-word-detektionstærskel tunet til at maksimere falsk-afvisningsrate for neurotypiske stemmer. Talere med atypisk tale udløser langt flere falske afvisninger end den gennemsnitlige bruger — den tavse-afvisnings-fejlmodus — fordi wake-word-modellen effektivt aldrig har set deres stemme under træning.

Wake-word-følsomhed · gør

Godt: lever en per-bruger wake-word-følsomhedsskyder, der sænker detektionstærsklen for en profilindmeldt atypisk-tale-taler (Google Assistant kalder dette “Hey Google-følsomhed”; Alexa har ingen tilsvarende på brugerniveauet). Par med en fysisk eller on-screen tryk-for-at-tale-bekvemmelighed, så wake-word aldrig er den eneste indgang.

Spillebog

6. Hvad designere og ingeniører bør levere

Behandl standardprofilgenkendelse som et worst-case gulv, ikke et mål

Enhver testplan bør inkludere en personalisering-aktiveret kørsel sideløbende med standardprofilkørslen. Hvis dit skill, din Action eller dit SiriKit-intent kun virker for brugere, der har tilmeldt sig Project Relate eller Listen for Atypical Speech, dokumentér det i din tilgængelighedserklæring og vis prompten om at tilmelde sig inde fra din app.

Begræns sprogmodellen i øjeblikke af tvetydighed

Disambigueringsprompter, der tilbyder to eller tre eksplicitte muligheder, gendanner en stor del af WER-gabet på dysartriske kohorts, fordi afkoderen nu scorer mod et lille endeligt vokabular i stedet for et åbent. Brug platform-disambiguerings-API’erne; genopfind ikke frit-form re-prompter.

Par altid stemme med en ikke-stemme-inputsti

Enhver stemmestyret overflade — smart speaker, in-car-assistent, mobilapp — har brug for en ikke-stemme-fallback inden for samme flow. En fysisk knap, et berøringsmål, en skrevet-input-tilstand. Stemme er én modalitet blandt mange; at designe, som om det var den eneste, er det, der får brugere med atypisk tale til at forlade produktet.

Finjuster end-of-speech-detektion og eksponer det i tilgængelighedsindstillinger

Standard end-of-speech-timeouts er finjusteret til neurotypiske talere. Tilføj en brugervendt udvidet-pause-mulighed til dit assistent-skills indstillinger (platformene eksponerer hooks; Siris Pause-tidsindstilling og Googles Taletidsindstilling er referencerne). Eksponer det fra systemets tilgængelighedsmenu, ikke fra en begravet Stemme-fane.

Test mod de offentlige datasæt — ikke kun dit eget team

Apples Speech Accessibility Project og Project Euphonia-evalueringssættet er offentligt tilgængelige for kvalificerede forskere og tilgængelighedsteams. De dækker de kohorts, dit QA-team næsten med sikkerhed ikke gør. Kør din wake-word- og hensigtsklassifikator mod et balanceret undersæt inden hver release; spor WER og hensigts-succes per kohort, ikke blot et samlet tal.

Konklusion: voice-UI-tilgængelighed er et fordelingsproblem forklædt som et UX-problem

Matricen ovenfor er nedslående, men den er også læselig. Enhver celle med en hensigtsrate under 50% kortlægger til et genkendeligt gab i træningsfordelingen — for få dysartriske talere, for lidt stammen, for lidt døv tale, for få ikke-indfødte engelsktalende fra underrepræsenterede modersmålsbaggrunde. Løsningerne er ikke mystiske: udvid datasættet, byg et taler-adaptivt personaliseringslag, eksponer begrænset-vokabular-disambiguering og lever en ikke-stemme-fallback på enhver overflade.

Af de fire assistenter vi testede, rykker Googles stak — Assistant plus Project Relate plus Voice Access — flest tal på flest kohorts, fordi Google har investeret mest konsekvent i atypisk-tale-data og on-device-tilpasning. Apples Listen for Atypical Speech, introduceret i iOS 17, lukker det meste af gabet med en langt lettere opsætningsomkostning og en fuldt on-device-model — en stærk privatlivshistorie, der er vigtig for en kategori af brugere, som måske er ubehagelige ved at sende prøver af deres atypiske tale til et cloud. Amazons Alexa halter i personaliseringsarkitektur; Samsungs Bixby halter på tværs.

For designere er takeawayen, at den assistent, dine brugere lander på, vil bestemme halvdelen af gulvet; de mønstre, du pakker rundt om den, vil bestemme resten. Disambigueringsprompter, udvidede-pause-indstillinger, ikke-stemme-fallbacks og personaliserings-venlige tilmeldingsflows er de fire interventioner, der rykker flest tal i vores gentagelseskørsler. Ingen af dem kræver et research-team — kun et designsystem, der behandler atypisk tale som en førsteklasses bruger, ikke et kant-tilfælde.

»Voice-UI-tilgængelighedsgabet er for det meste et træningsfordelings-gab med et tyndt lag UX oven på. Personalisering lukker det meste af gabet; ikke-stemme-fallbacks lukker resten.«

— Disability World engineering desk, maj 2026