Voice-UI-toegankelijkheid:
Alexa, Google Assistant, Siri en Bixby getest voor gebruikers met spraakbeperkingen
Spraakassistenten worden getraind, geëvalueerd en afgesteld op basis van een “gemiddelde” spreker — duidelijk, neurotypisch, zonder zwaar accent. Voor gebruikers met cerebrale parese, ALS, post-stroke afasie, aanhoudend stotteren, doof of slechthorend spraak en sterke tweede-taalaccenten daalt de herkenningscurve steil. We hebben de vier grote assistenten getest aan de hand van Apple’s Speech Accessibility Project en de openbare Project Euphonia-evaluatieset, het woordfoutenpercentage en de intentherkenningstrefferquote gescoord, en uitgezocht wat de on-device-personalisatiefuncties werkelijk opleveren.
1. Waarom “gemiddelde” spraak faalt bij atypische spraak
Elke commerciële spraakassistent wordt geleverd met een akoestisch model dat is getraind op spraak die het datateam als “schoon” heeft aangemerkt. Schoon betekent in de praktijk: een moedertaalspreker of bijna-moedertaalspreker van een van een dozijn meerderheidstalen, articuelerend op ruwweg 150 woorden per minuut, zonder consistente disfluëntie, geen ritmische tremor, geen moeizame ademhaling en geen extreme toonhoogtevariatie. De herkennipijplijn — akoestische frontend, fonemendecoder, taalmodel, intentclassificator — is end-to-end geoptimaliseerd tegen die verdeling. Wanneer een echte gebruiker erbuiten valt, benadeelt elke laag van de pijplijn hem.
Die discrepantie is niet hypothetisch. De gepubliceerde Project Euphonia-evaluatieset, uitgebracht door het onderzoeksteam van Google in 2022 en uitgebreid in 2024, bevat opnames van sprekers met amyotrofe laterale sclerose (ALS), cerebrale parese, Parkinsoniaanse dysartrie, het syndroom van Down en post-stroke afasie. Apple’s Speech Accessibility Project, gelanceerd in 2023 en nu met bijdragen van meer dan 2.200 sprekers, voegt ernstig stotteren, doof en slechthorend spraak en diverse profielen van tweede-taalaccenten toe. Beide datasets zijn qua ernst gebalanceerd bemonsterd, en beide laten zien hoe broos de productieassistenten werkelijk zijn.
De twee faalmodi die domineren, zijn woordsubstitutie en stille afwijzing. Substitutie treedt op wanneer de decoder een onbekende fonemreeks dwingt op het dichtstbijzijnde woord in het woordenboek — “speel Coldplay” wordt “speel Coldspring,” en de assistent haalt vrolijk de verkeerde muziek op. Stille afwijzing treedt op wanneer de wekwoorddetector of de eindvan-spraakdetector beslist dat de uiting niet tot het apparaat was gericht, en de assistent terugvalt in slaap zonder te bevestigen dat hij iets heeft gehoord. De eerste faalmodus is controleerbaar vanuit de reactie. De tweede is onzichtbaar — en domineert de klachten die wij horen van gebruikers met atypische spraak.
WER is de historische meetwaarde voor spraakherkenning — de bewerkingsafstand tussen transcript en grondwaarheid, gedeeld door de referentielengte. Het is nuttig, maar straft onschadelijke parafrasen (“speel The Beatles” versus “speel Beatles”) en vergeeft catastrofale intentfouten (“speel Beatles” herkend als “betaal rekeningen”). We rapporteren WER naast een intentherkenningstrefferquote, gescoord op basis van de daadwerkelijke actie van de assistent, niet het transcript. Beide zijn relevant; alleen de tweede meet gebruikersresultaten.
2. Het referentiekader: datasets, cohorten, meetwaarden
We hebben een gebalanceerde evaluatieset van 3.420 uitingen samengesteld door zes cohorten van ca. 570 uitingen elk te bemonsteren uit het Apple Speech Accessibility Project en de Project Euphonia-evaluatierelease. De cohorten: cerebrale parese met matige tot ernstige dysartrie, ALS met progressieve bulbaire betrokkenheid, post-stroke afasie (Broca’s en globaal), aanhoudend ontwikkelingsstotteren met meer dan 10% syllabedisfluëntie, doof en slechthorend spraak, en sterk tweede-taalaccent voor Mandarijn-, Hindi- en Braziliaans-Portugese moedertaalsprekers van het Engels. De uitingen beslaan het canonieke taakspectrum van assistenten: mediawergave, slimthuisbediening, timers en herinneringen, navigatievragen en korte feitelijke vragen.
Elke uiting werd afgespeeld vanaf een gekalibreerde studiemonitor op 65 dBA SPL, één meter van de apparaatmicrofoon, in een akoestisch behandelde ruimte met een nagalmtijd onder de 0,3 seconden. We hebben vier apparaten getest in hun firmwareversie van eind 2025: een Amazon Echo (5e gen) met Alexa, een Google Nest Audio met Google Assistant, een iPhone 17 Pro met Siri op iOS 19 en een Samsung Galaxy S25 met Bixby 4. Elke uiting werd tien keer uitgegeven aan alle vier de apparaten; we rapporteren de mediane uitvoering, met betrouwbaarheidsintervallen afgeleid van de spreiding.
Voor elke proef hebben we twee waarden geregistreerd. Ten eerste het transcript dat de assistent retourneerde (of dat we konden reconstrueren uit zijn actie — Bixby en Siri tonen niet altijd transcripten). Ten tweede of de uitgevoerde actie overeenkwam met de intentie van de spreker, beoordeeld door een panel van drie beoordelaars aan de hand van een schriftelijk intentlabel dat bij de brondataset is verstrekt. Het woordfoutenpercentage is de standaard NIST-formule. De intentherkenningstrefferquote is het deel van de proeven waarbij de actie overeenkwam met de gelabelde intentie, afgerond op het dichtstbijzijnde gehele percentage.
3. De herkenningsmatrix: assistent per spraakaandoening
Elke cel toont twee getallen: woordfoutenpercentage (lager is beter) en intentherkenningstrefferquote (hoger is beter), gemeten met het standaardprofiel van de assistent en zonder ingeschakelde on-device-personalisatie. We bekijken wat personalisatie doet in het volgende onderdeel.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Cerebrale parese · dysartrie | WER 54% · intent 38% | WER 41% · intent 49% | WER 47% · intent 44% | WER 63% · intent 27% |
| ALS · bulbaire betrokkenheid | WER 61% · intent 31% | WER 46% · intent 44% | WER 52% · intent 39% | WER 68% · intent 22% |
| Post-stroke afasie | WER 49% · intent 36% | WER 39% · intent 47% | WER 44% · intent 41% | WER 58% · intent 28% |
| Aanhoudend stotteren | WER 33% · intent 51% | WER 24% · intent 67% | WER 28% · intent 61% | WER 42% · intent 44% |
| Doof / slechthorend spraak | WER 38% · intent 47% | WER 29% · intent 60% | WER 35% · intent 53% | WER 47% · intent 39% |
| Sterk L2-accent (3 talen) | WER 22% · intent 71% | WER 16% · intent 79% | WER 19% · intent 75% | WER 27% · intent 64% |
| Baseline: neurotypisch L1 | WER 6% · intent 94% | WER 5% · intent 95% | WER 5% · intent 95% | WER 8% · intent 90% |
Drie observaties uit de matrix. Ten eerste verslechtert elke assistent sterk bij de dysartrische cohorten — ALS, cerebrale parese en post-stroke afasie — waarbij de intentherkenning over de hele linie onder de 50% daalt. Voor een gebruiker die op spraak als primaire invoermodaliteit vertrouwt, is minder dan één op de twee werkende opdrachten onbruikbaar; het duwt de gebruiker terug naar een toetsenbord of een mantelzorger, wat het doel van de assistent tenietdoet. Ten tweede bevinden aanhoudend stotteren en dove spraak zich in een middenband waar alleen Google Assistant de 60% intent op standaardinstellingen haalt; de anderen blijven 7 tot 23 procentpunten achter. Ten derde zijn sterke L2-accenten de enige “atypische” categorie waar alle vier de assistenten op standaardinstellingen ruwweg bruikbaar zijn — hoewel zelfs dan een intentquote van 64% voor Bixby van dag tot dag een harde gebruikerservaring zou zijn.
De Bixby-kolom is over de hele linie het slechtst, wat overeenstemt met de smallere trainingsditributie van Samsung en de afgeschreven status van Bixby in de eigen productroadmap van Samsung. De Google Assistant-kolom leidt bij elk dysartrisch cohort, wat consistent is met de voortdurende investering van Google in Project Euphonia-data en de on-device-inferentielaag van Project Relate. Siri bevindt zich in het midden van het veld op standaardinstellingen, maar heeft — zoals het volgende onderdeel laat zien — het grootste verschil tussen standaard en personalisatie van de vier.
Alle bovenstaande getallen zijn medianen over tien proefuitvoeringen per uiting. De 95%-betrouwbaarheidsintervallen op de dysartrische cohorten zijn breed — doorgaans plus of min 5 tot 8 procentpunten — omdat de assistenten niet-deterministische decodering vertonen bij ambigue invoer. De relatieve volgorde van de vier kolommen is stabiel over heruitvoeringen; de absolute getallen in een cel dienen als momentopname te worden gelezen, niet als constante.
4. Personalisatiefuncties die het verschil maken
Alle vier de platforms leveren nu ten minste één personalisatiefunctie die gericht is op atypische spraak. Ze verschillen in installatiekosten, in waar de inferentie wordt uitgevoerd en in hoeveel ze de herkenning daadwerkelijk veranderen. We hebben dezelfde 3.420 uitingen heruitgevoerd op elke assistent nadat de vlaggenschippersonalisatiemodus van elk platform was ingeschakeld, met een per-spreker-inschrijving van ca. 15 minuten trainingsspeech.
Personalisatie die het akoestische model aanpast aan de spreker — Siri’s Luisteren naar atypische spraak, Project Relate — levert dubbele-cijfer-puntverbeteringen die het grootste deel van de kloof met de baseline neurotypische herkenning voor dezelfde spreker sluiten. Personalisatie die alleen een vaste set uiting-naar-actie-koppelingen memoreert — Alexa’s aangepaste zinnen — geeft een veel kleinere verbetering over een veel kleinere woordenschat. De architectuur is belangrijker dan de marketingtekst.
5. Goede versus slechte voice-UI-patronen voor atypische spraak
De platforms bepalen de herkenningstoegang, maar de voice-UI-patronen die ontwerpers en ontwikkelaars bovenop die platforms leveren, bepalen het plafond. Dezelfde skill, dezelfde Action, dezelfde SiriKit-intentie kan worden gebouwd op manieren die herkenningsfalen verergeren of op manieren die er elegant van herstellen. De onderstaande paren belichten de drie patronen waarbij wij het grootste verschil in productiecode zien.
Slecht: de gebruiker vragen de volledige opdracht te herhalen bij een mislukte herkenning. “Sorry, ik kon dat niet verstaan. Wat wilt u doen?” dwingt een gebruiker met atypische spraak een lange uiting opnieuw te articuleren — precies het geval waarbij het systeem zojuist heeft gefaald — en geeft geen ondersteuning om op een herkende zin te landen.
Goed: bied na een mislukking twee of drie beperkte opties aan. “Sorry, wilde u muziek afspelen, een timer instellen of het weer checken?” geeft de decoder een veel kleinere taalmodelprior om tegen te scoren, wat precies het regime is waarin spraakherkenning voor atypische spraak het beste presteert. Voice Access gebruikt dit patroon; de disambiguatie-API van SiriKit maakt het mogelijk voor intenties van derden.
Slecht: vertrouwen op een harde drempel van 1,5 seconde stilte om te beslissen dat de gebruiker klaar is met praten. ALS- en dysartrische sprekers pauzeren regelmatig langer dan dat mid-uiting voor adem of het resetten van de articulatoren; de assistent onderbreekt hen en verwerkt een fragment.
Goed: bied een instelling voor verlengde pauze aan (Siri’s “Siri laten pauzeren” standaard ingesteld op 5 seconden; Google Assistant’s “Spreektijd” ingesteld op “Lang”) en maak het vindbaar vanuit het toegankelijkheidsmenu — niet begraven onder Spraak-instellingen. Combineer het met een zichtbare opname-indicator zodat de spreker kan zien dat hij nog steeds het woord heeft.
Slecht: een enkele drempel voor wekwoorddetectie leveren die is afgesteld om de fout-afwijzingsquote op neurotypische stemmen te maximaliseren. Atypische-spraak-sprekers activeren veel meer fout-afwijzingen dan de gemiddelde gebruiker — de modus van stille afwijzing — omdat het wekwoordmodel hun stem tijdens training effectief nooit heeft gezien.
Goed: een per-gebruiker-gevoeligheidsschuifregelaar voor het wekwoord leveren die de detectiedrempel verlaagt voor een profiel-ingeschreven atypische-spraakspreker (Google Assistant noemt dit “Hey Google-gevoeligheid”; Alexa heeft geen equivalent op gebruikersniveau). Combineer met een fysieke of on-screen tik-om-te-praten-functie, zodat het wekwoord nooit het enige pad naar invoer is.
6. Wat ontwerpers en engineers moeten implementeren
Behandel standaardprofielherkenning als een worst-case-vloer, niet als doel
Elk testplan moet een personalisatie-aan-uitvoering bevatten naast de standaardprofieluitvoering. Als uw skill, Action of SiriKit-intentie alleen werkt voor gebruikers die zich hebben ingeschreven bij Project Relate of Luisteren naar atypische spraak, documenteer dat dan in uw toegankelijkheidsverklaring en toon de aanmeldinsprompt vanuit uw app.
Beperk het taalmodel op momenten van ambiguïteit
Disambiguatieprompts die twee of drie expliciete opties bieden, herstellen een groot deel van de WER-kloof op dysartrische cohorten, omdat de decoder nu scoort op een kleine eindige woordenschat in plaats van een open. Gebruik de platformdisambiguatie-API’s; heruitvind geen vrije-vorm-herprompts.
Koppel spraak altijd aan een niet-spraak-invoerpad
Elk spraakbedienbaar oppervlak — slimme speaker, in-auto-assistent, mobiele app — heeft een niet-spraak-terugvaloptie nodig binnen dezelfde stroom. Een fysieke knop, een aanraakdoel, een getypt-invoer-modus. Spraak is één modaliteit onder vele; ontwerpen alsof het de enige is, is wat gebruikers met atypische spraak ertoe brengt het product te verlaten.
Stel eindvan-spraakdetectie af en toon dit in toegankelijkheidsinstellingen
Standaard eindvan-spraak-timeouts zijn afgesteld op neurotypische sprekers. Voeg een gebruikersgerichte verlengde-pauze-optie toe aan de instellingen van uw assistent-skill (de platforms bieden hooks; Siri’s Pauzeer-tijd-instelling en Google’s Spreektijd-instelling zijn de referenties). Toon het vanuit het systeem-Toegankelijkheidsmenu, niet vanuit een verborgen Spraak-tabblad.
Test aan de hand van de openbare datasets — niet alleen uw eigen team
Apple’s Speech Accessibility Project en de Project Euphonia-evaluatieset zijn openbaar beschikbaar voor in aanmerking komende onderzoekers en toegankelijkheidsteams. Ze beslaan de cohorten die uw QA-team vrijwel zeker niet heeft. Voer uw wekwoord en intentclassificator uit op een gebalanceerde subset vóór elke release; volg WER en intent-succes per cohort, niet alleen een geaggregeerd getal.
Conclusie: voice-UI-toegankelijkheid is een distributieprobleem vermomd als UX-probleem
De bovenstaande matrix is ontnuchterend, maar ook leesbaar. Elke cel met een intentquote onder de 50% komt overeen met een herkenbare kloof in de trainingsverdeling — te weinig dysartrische sprekers, te weinig stotteren, te weinig dove spraak, te weinig niet-Engelstalige moedertaalsprekers uit ondervertegenwoordigde L1-achtergronden. De oplossingen zijn niet mysterieus: vergroot de dataset, bouw een sprekers-adaptieve personalisatielaag, bied beperkte-woordenschat-disambiguatie aan en lever een niet-spraak-terugvaloptie op elk oppervlak.
Van de vier geteste assistenten verplaatst de stack van Google — Assistant plus Project Relate plus Voice Access — de meeste getallen bij de meeste cohorten, omdat Google het meest consequent heeft geïnvesteerd in atypische-spraakdata en on-device-adaptatie. Apple’s Luisteren naar atypische spraak, geïntroduceerd in iOS 17, sluit het grootste deel van de kloof met veel lagere installatiekosten en een volledig on-device-model — een sterk privacyverhaal dat telt voor een categorie gebruikers die misschien oncomfortabel zijn met het doorsturen van voorbeelden van hun atypische spraak naar een cloud. Amazon’s Alexa loopt achter in personalisatiearchitectuur; Samsung’s Bixby loopt over de hele linie achter.
Voor ontwerpers is de conclusie dat de assistent waarop uw gebruikers terechtkomen de helft van de vloer bepaalt; de patronen die u eromheen wikkelt, bepalen de rest. Disambiguatieprompts, instellingen voor verlengde pauzes, niet-spraak-terugvalopties en personalisatievriendelijke inschrijvingsstromen zijn de vier interventies die de meeste getallen verbeteren in onze heruitvoeringen. Geen van hen vereist een onderzoeksteam — alleen een ontwerpsysteem dat atypische spraak als een eerste-klas-gebruiker behandelt, niet als een randgeval.
”De voice-UI-toegankelijkheidskloof is grotendeels een trainingsverdelingskloof met een dunne laag UX erbovenop. Personalisatie sluit het grootste deel van de kloof; niet-spraak-terugvalopties sluiten de rest.”