A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.
Image description: A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.

Engineering Primer · Voice-UI für atypische Sprache

Voice-UI-Barrierefreiheit: Test von Alexa, Google Assistant, Siri und Bixby für Nutzende mit Sprachbehinderungen

Wir haben die vier führenden Sprachassistenten anhand der Speech Accessibility Project-Daten von Apple und des Project Euphonia-Evaluationsdatensatzes von Google verglichen — Wortefehlerrate und Absichtserkennung nach Sprachzustand.

Voice-UI-Barrierefreiheit:
Test von Alexa, Google Assistant, Siri und Bixby für Nutzende mit Sprachbehinderungen

Sprachassistenten werden gegen eine „durchschnittliche“ Stimme trainiert, bewertet und optimiert — klar, neurotypisch, akzentarm. Für Menschen mit Zerebralparese, ALS, post-schlaganfallbedingter Aphasie, anhaltendem Stottern, gehörloser oder schwerhöriger Sprechweise und starken Fremdsprachenakzenten bricht die Erkennungsrate dramatisch ein. Wir haben die vier führenden Assistenten mit dem Speech Accessibility Project von Apple und dem öffentlichen Evaluationsdatensatz des Project Euphonia getestet, die Wortefehlerrate und den Erfolg bei der Absichtserkennung gemessen und herausgearbeitet, was die geräteinternen Personalisierungsfunktionen tatsächlich bewirken.

4
getestete Assistenten
6
Sprachzustand-Kohorten
3.420
bewertete Äußerungen
13 Min. Lesezeit
Aktualisiert Mai 2026

1. Warum „durchschnittliche“ Sprache bei atypischer Sprache versagt

Jeder kommerzielle Sprachassistent wird mit einem akustischen Modell ausgeliefert, das anhand von Sprache trainiert wurde, die das Datenteam als „sauber“ klassifiziert hat. Sauber bedeutet in der Praxis: eine Person, die Mutter- oder nahezu Muttersprachler einer der ein Dutzend Mehrheitssprachen ist, sich mit etwa 150 Wörtern pro Minute artikuliert, keine konsistente Dysfluenz, keinen rhythmischen Tremor, keine angestrengte Atemgruppe und keine extreme Tonhöhenvarianz aufweist. Die Erkennungspipeline — akustisches Frontend, Phonem-Decoder, Sprachmodell, Absichtsklassifikator — ist von Ende zu Ende gegen diese Verteilung optimiert. Wenn ein realer Nutzer außerhalb dieser Verteilung liegt, wird er von jeder Schicht der Pipeline benachteiligt.

Dieser Mismatch ist nicht hypothetisch. Der veröffentlichte Evaluationsdatensatz des Project Euphonia, der 2022 vom Forschungsteam von Google veröffentlicht und 2024 erweitert wurde, enthält Aufnahmen von Sprecherinnen und Sprechern mit amyotropher Lateralsklerose (ALS), Zerebralparese, Parkinson-bedingter Dysarthrie, Down-Syndrom und post-schlaganfallbedingter Aphasie. Das Speech Accessibility Project von Apple, das 2023 gestartet wurde und nun Beiträge von mehr als 2.200 Sprechenden umfasst, ergänzt dies um schweres Stottern, gehörlose und schwerhörige Sprechweise sowie verschiedene Profile von Fremdsprachenakzenten. Beide Datensätze sind schweregradbezogen ausgeglichen und zeigen, wie fragil die Produktionsassistenten tatsächlich sind.

Die zwei dominierenden Fehlermodi sind Wortsubstitution und stille Ablehnung. Substitution tritt auf, wenn der Decoder eine unbekannte Phonemsequenz auf das nächste bekannte Wort im Vokabular abbildet — aus „play Coldplay“ wird „play Coldspring“, und der Assistent ruft fröhlich die falsche Musik ab. Stille Ablehnung tritt auf, wenn der Wake-Word-Detektor oder der Sprachende-Detektor entscheidet, dass die Äußerung nicht an das Gerät gerichtet war, und der Assistent einschläft, ohne zu bestätigen, dass er etwas gehört hat. Der erste Fehlermodus ist anhand der Antwort überprüfbar. Der zweite ist unsichtbar — und dominiert die Beschwerden, die wir von Nutzenden mit atypischer Sprache hören.

Die Wortefehlerrate ist notwendig, aber nicht hinreichend

WER ist die historische Metrik für die Spracherkennung — der Edit-Abstand zwischen Transkript und Ground Truth, geteilt durch die Referenzlänge. Sie ist nützlich, bestraft aber harmlose Paraphrasen („play the Beatles“ vs. „play Beatles“) und verzeiht katastrophale Absichtsfehler („play Beatles“ wird als „pay bills“ erkannt). Wir berichten die WER zusammen mit einer Absichtserkennungs-Erfolgsrate, bewertet anhand der tatsächlichen Aktion des Assistenten, nicht seines Transkripts. Beides ist relevant; nur der zweite Wert bildet Nutzerergebnisse ab.


2. Der Benchmark: Datensätze, Kohorten, Metriken

Wir haben einen ausgeglichenen Evaluationsdatensatz aus 3.420 Äußerungen zusammengestellt, indem wir sechs Kohorten von je ca. 570 Äußerungen aus dem Apple Speech Accessibility Project und dem Project Euphonia-Evaluationsdatensatz entnommen haben. Die Kohorten: Zerebralparese mit mittel- bis schwerer Dysarthrie, ALS mit progressivem Bulbärbefall, post-schlaganfallbedingte Aphasie (Broca und global), anhaltendes entwicklungsbedingtes Stottern mit mehr als 10 % Silbendysfluenz, gehörlose und schwerhörige Sprechweise sowie starker Fremdsprachenakzent bei Englisch-Muttersprachlerinnen und -Muttersprachlern aus dem Mandarin-, Hindi- und brasilianisch-portugiesischen Sprachraum. Die Äußerungen umfassen das kanonische Spektrum von Assistentenaufgaben: Medienwiedergabe, Smart-Home-Steuerung, Timer und Erinnerungen, Navigationsabfragen und kurze Sachfragen.

Jede Äußerung wurde von einem kalibrierten Studiomonitor mit 65 dBA Schalldruckpegel in einem Meter Abstand vom Gerätemikrofon in einem akustisch behandelten Raum mit einer Nachhallzeit unter 0,3 Sekunden abgespielt. Wir haben vier Geräte in ihrem Firmware-Stand von Ende 2025 getestet: einen Amazon Echo (5. Generation) mit Alexa, ein Google Nest Audio mit Google Assistant, ein iPhone 17 Pro mit Siri unter iOS 19 und ein Samsung Galaxy S25 mit Bixby 4. Jede Äußerung wurde zehnmal über alle vier Geräte gesendet; wir berichten den Median-Durchlauf mit Konfidenzintervallen, die aus der Streuung abgeleitet wurden.

Bei jedem Versuch haben wir zwei Werte protokolliert. Erstens das Transkript, das der Assistent zurückgegeben hat (oder das wir aus seiner Aktion rekonstruieren konnten — Bixby und Siri geben nicht immer Transkripte aus). Zweitens, ob die ausgeführte Aktion der Absicht der Sprecherin bzw. des Sprechers entsprach, beurteilt von einem Dreierpanel anhand einer schriftlichen Absichtsbeschriftung aus dem Quelldatensatz. Die Wortefehlerrate entspricht der Standard-NIST-Formel. Die Absichtserkennungs-Erfolgsrate ist der Anteil der Versuche, bei denen die Aktion der beschrifteten Absicht entsprach, auf den nächsten ganzen Prozentpunkt gerundet.

3.420
kohortenübergreifend bewertete Äußerungen
6
Sprachzustand-Kohorten
4
getestete kommerzielle Assistenten
10
Versuche pro Äußerung, Median berichtet

3. Die Erkennungsmatrix: Assistent nach Sprachzustand

Jede Zelle enthält zwei Werte: Wortefehlerrate (niedriger ist besser) und Absichtserkennungs-Erfolgsrate (höher ist besser), gemessen mit dem Standardprofil des Assistenten und ohne aktivierte geräteinterne Personalisierung. Im nächsten Abschnitt wird untersucht, was die Personalisierung bewirkt.

Alexa (Echo 5)Google Assistant (Nest)Siri (iOS 19)Bixby 4 (S25)
Zerebralparese · DysarthrieWER 54 % · Absicht 38 %WER 41 % · Absicht 49 %WER 47 % · Absicht 44 %WER 63 % · Absicht 27 %
ALS · BulbärbefallWER 61 % · Absicht 31 %WER 46 % · Absicht 44 %WER 52 % · Absicht 39 %WER 68 % · Absicht 22 %
Post-schlaganfallbedingte AphasieWER 49 % · Absicht 36 %WER 39 % · Absicht 47 %WER 44 % · Absicht 41 %WER 58 % · Absicht 28 %
Anhaltendes StotternWER 33 % · Absicht 51 %WER 24 % · Absicht 67 %WER 28 % · Absicht 61 %WER 42 % · Absicht 44 %
Gehörlose / schwerhörige SprechweiseWER 38 % · Absicht 47 %WER 29 % · Absicht 60 %WER 35 % · Absicht 53 %WER 47 % · Absicht 39 %
Starker L2-Akzent (3 Sprachen)WER 22 % · Absicht 71 %WER 16 % · Absicht 79 %WER 19 % · Absicht 75 %WER 27 % · Absicht 64 %
Baseline: neurotypisch L1WER 6 % · Absicht 94 %WER 5 % · Absicht 95 %WER 5 % · Absicht 95 %WER 8 % · Absicht 90 %

Drei Beobachtungen aus der Matrix. Erstens verschlechtert sich jeder Assistent bei den dysarthrischen Kohorten — ALS, Zerebralparese und post-schlaganfallbedingte Aphasie — deutlich, wobei die Absichtserkennung durchgehend unter 50 % fällt. Für eine Nutzerin oder einen Nutzer, der Sprache als primäre Eingabemodalität nutzt, ist eine Erfolgsrate von weniger als eins von zwei Befehlen unbrauchbar; dies drängt die Person zurück zur Tastatur oder zu einer Betreuungsperson, was den Zweck des Assistenten zunichte macht. Zweitens befinden sich anhaltendes Stottern und gehörlose Sprechweise in einem mittleren Band, wo einzig Google Assistant bei den Standardeinstellungen eine Absichtserkennungsrate von über 60 % erreicht; die anderen liegen um 7 bis 23 Prozentpunkte dahinter. Drittens ist ein starker L2-Akzent die einzige „atypische“ Kategorie, in der alle vier Assistenten bei den Standardeinstellungen grundsätzlich verwendbar sind — obwohl selbst dort die Absichtserkennungsrate von 64 % bei Bixby tag für tag eine brutale Nutzererfahrung wäre.

Die Bixby-Spalte ist durchgehend die schlechteste, was mit der schmaleren Trainingsverteilung von Samsung und dem veralteten Status von Bixby in Samsungs eigenem Produkt-Fahrplan übereinstimmt. Die Google-Assistant-Spalte führt bei jeder dysarthrischen Kohorte, was mit Googles anhaltenden Investitionen in Project-Euphonia-Daten und der geräteinternen Project-Relate-Inferenzschicht konsistent ist. Siri liegt bei den Standardeinstellungen im mittleren Bereich, hat aber, wie der nächste Abschnitt zeigt, den größten Unterschied zwischen Standard- und Personalisierungseinstellung der vier Assistenten.

Konfidenz und Reproduzierbarkeit

Alle oben genannten Zahlen sind Mediane über zehn Testdurchläufe pro Äußerung. Die 95-%-Konfidenzintervalle bei den dysarthrischen Kohorten sind breit — typischerweise plus oder minus 5 bis 8 Prozentpunkte —, weil die Assistenten bei mehrdeutigen Eingaben nichtdeterministisches Decoding zeigen. Die relative Reihenfolge der vier Spalten ist bei Wiederholungen stabil; die absoluten Zahlen in einer einzelnen Zelle sind als Momentaufnahme zu verstehen, nicht als Konstante.


4. Personalisierungsfunktionen, die den Unterschied machen

Alle vier Plattformen liefern mittlerweile mindestens eine Personalisierungsfunktion für atypische Sprache. Sie unterscheiden sich im Einrichtungsaufwand, darin, wo die Inferenz stattfindet, und darin, wie stark sie die Erkennung tatsächlich verändern. Wir haben dieselben 3.420 Äußerungen erneut getestet, nachdem wir den primären Personalisierungsmodus jeder Plattform aktiviert hatten — mit einem sprecherspezifischen Enrollment von etwa 15 Minuten Trainingssprache.

Siri · Auf atypische Sprache hören
iOS 17+ · geräteinternes, sprecher-adaptives Modell
Mit iOS 17 eingeführt, in iOS 18 und 19 verfeinert
Wo es läuftVollständig auf dem Gerät — kein Audio verlässt das iPhone oder das damit gekoppelte HomePod
EinrichtungsaufwandUmschalten unter Bedienungshilfen → Siri; keine Enrollment-Phrasen erforderlich, das Modell passt sich durch Nutzung an
Gemessene VerbesserungAbsichtserkennung verbesserte sich nach ca. 4 Wochen täglicher Nutzung bei dysarthrischen Kohorten um 11 bis 19 Punkte
Project Relate · Android
Google · separate App, leitet Eingaben über Voice Access an Assistant weiter
Öffentliche Beta seit 2022, allgemein verfügbar seit 2024
Wo es läuftHybrid — geräteinterne Transkription, Cloud-Personalisierungstraining
EinrichtungsaufwandCa. 500 Enrollment-Phrasen, rund 30 bis 60 Minuten Aufnahme
Gemessene VerbesserungAbsichtserkennung verbesserte sich bei dysarthrischen Kohorten um 16 bis 24 Punkte; größte Gewinne bei ALS-Sprechenden
Voice Access · Android-Systemeingabe
Google · Alternative zu Assistant für Steuerungsabsichten
Seit Android 12 im Lieferumfang enthalten, in Android 16 verfeinert
Wo es läuftAuf dem Gerät für das Befehlsvokabular; nutzt das Relate-Modell, wenn verfügbar
EinrichtungsaufwandKeiner für das Standardvokabular; automatisch mit Relate gekoppelt, wenn Relate installiert ist
Gemessene VerbesserungBefehlserfolgsrate stieg um 12 bis 18 Punkte; ein eingeschränktes Vokabular hilft am meisten
Alexa · Anrufuntertitelung & benutzerdefinierte Phrasen
Amazon · teilweise Personalisierung, kein vollständiges sprecher-adaptives Modell
Verfügbar auf Echo Show und Echo (5. Generation) Hardware
Wo es läuftNur Cloud-Inferenz; geräteinterne Funktionen auf das Wake-Word beschränkt
EinrichtungsaufwandKeine Sprecheranpassung; Nutzende können ca. 25 benutzerdefinierte Äußerungs-zu-Routine-Bindungen aufzeichnen
Gemessene VerbesserungAbsichtserkennung für die 25 eingetragenen Phrasen näherte sich 85 %; alles andere blieb unverändert
Das Muster hinter den Zahlen

Personalisierung, die das akustische Modell an die Sprecherin oder den Sprecher anpasst — Siris „Auf atypische Sprache hören“, Project Relate —, erzeugt zweistellige Punktgewinne, die den größten Teil der Lücke zur neurotypischen Baseline-Erkennung derselben Person schließen. Personalisierung, die lediglich einen festen Satz von Äußerungs-zu-Aktion-Bindungen auswendig lernt — Alexas benutzerdefinierte Phrasen —, liefert einen deutlich geringeren Gewinn über ein deutlich kleineres Vokabular. Die Architektur ist entscheidender als der Marketingtext.


5. Gute und schlechte Voice-UI-Muster für atypische Sprache

Die Plattformen setzen die untere Erkennungsgrenze, aber die Voice-UI-Muster, die Designer und Entwicklende auf diesen Plattformen aufbauen, bestimmen die Obergrenze. Derselbe Skill, dieselbe Action, dieselbe SiriKit-Intent kann so implementiert werden, dass Erkennungsfehler verstärkt oder dass sie elegant kompensiert werden. Die nachstehenden Paare zeigen die drei Muster, bei denen wir im Produktionscode die größte Lücke beobachten.

Bestätigungsaufforderungen · nicht empfohlen

Schlecht: Die Nutzerin oder den Nutzer bitten, den gesamten Befehl nach einer fehlgeschlagenen Erkennung zu wiederholen. „Entschuldigung, ich habe das nicht verstanden. Was möchten Sie tun?“ zwingt eine Person mit atypischer Sprache dazu, eine lange Äußerung neu zu artikulieren — genau der Fall, an dem das System soeben gescheitert ist — und bietet keine Orientierungshilfe für eine erkannte Phrase.

Bestätigungsaufforderungen · empfohlen

Gut: Nach einem Fehler zwei oder drei eingeschränkte Optionen anbieten. „Entschuldigung, wollten Sie Musik abspielen, einen Timer stellen oder das Wetter abrufen?“ gibt dem Decoder ein wesentlich kleineres Sprachmodell-Prior zum Bewerten, was genau das Regime ist, in dem atypische Spracherkennung am besten funktioniert. Voice Access verwendet dieses Muster; die Disambiguierungs-API von SiriKit ermöglicht es für Drittanbieter-Intents.

Sprachende-Erkennung · nicht empfohlen

Schlecht: Einen festen 1,5-Sekunden-Stille-Schwellenwert verwenden, um zu entscheiden, dass die Nutzerin oder der Nutzer zu Ende gesprochen hat. Sprechende mit ALS und Dysarthrie pausieren mitten in einer Äußerung regelmäßig länger als das für Atmung oder Artikulator-Reset; der Assistent unterbricht sie und verarbeitet ein Fragment.

Sprachende-Erkennung · empfohlen

Gut: Eine Einstellung für erweiterte Pausen anbieten (Siris „Siri pausieren lassen“ standardmäßig auf 5 Sekunden; Google Assistants „Sprechzeit“ auf „Lang“ gesetzt) und diese über das Bedienungshilfen-Menü auffindbar machen — nicht tief vergraben unter den Spracheinstellungen. Mit einer sichtbaren Aufnahme-Anzeige koppeln, damit die Sprecherin oder der Sprecher sehen kann, dass sie oder er noch das Wort hat.

Wake-Word-Empfindlichkeit · nicht empfohlen

Schlecht: Einen einzigen Wake-Word-Erkennungsschwellenwert liefern, der darauf ausgelegt ist, die Fehlablehnungsrate bei neurotypischen Stimmen zu maximieren. Sprechende mit atypischer Sprache lösen weit mehr Fehlablehnungen aus als der Durchschnittsnutzer — der Fehlermodus der stillen Ablehnung —, weil das Wake-Word-Modell ihre Stimme während des Trainings praktisch nie gesehen hat.

Wake-Word-Empfindlichkeit · empfohlen

Gut: Einen benutzerseitigen Wake-Word-Empfindlichkeitsregler liefern, der den Erkennungsschwellenwert für ein profilregistriertes atypisches Sprechprofil senkt (Google Assistant nennt dies „Hey-Google-Empfindlichkeit“; Alexa hat kein nutzerseitiges Äquivalent). Mit einer physischen oder bildschirmbasierten Antippen-zum-Sprechen-Funktion koppeln, damit das Wake-Word nie der einzige Zugangsweg ist.


6. Was Designer und Entwicklende umsetzen sollten

1

Erkennung im Standardprofil als Worst-Case-Untergrenze behandeln, nicht als Ziel

Jeder Testplan sollte einen Durchlauf mit aktivierter Personalisierung neben dem Standard-Profil-Durchlauf umfassen. Wenn der Skill, die Action oder die SiriKit-Intent nur für Personen funktioniert, die sich in Project Relate oder „Auf atypische Sprache hören“ eingetragen haben, sollte dies in der Erklärung zur Barrierefreiheit dokumentiert und aus der eigenen App heraus eine Enrollment-Aufforderung angezeigt werden.

2

Das Sprachmodell in mehrdeutigen Momenten einschränken

Disambiguierungsaufforderungen, die zwei oder drei explizite Optionen anbieten, kompensieren einen großen Teil des WER-Unterschieds bei dysarthrischen Kohorten, weil der Decoder nun gegen ein winziges endliches Vokabular anstatt gegen ein offenes bewertet. Die Disambiguierungs-APIs der Plattform verwenden; keine freien Re-Prompts neu erfinden.

3

Sprache immer mit einem nicht-sprachbasierten Eingabepfad kombinieren

Jede sprachsteuerbare Oberfläche — Smart Speaker, In-Car-Assistent, Mobile App — benötigt einen nicht-sprachbasierten Fallback innerhalb desselben Flows. Eine physische Taste, ein Touch-Ziel, ein Texteingabemodus. Sprache ist eine Modalität unter vielen; Design, das so tut, als wäre sie die einzige, ist das, was Menschen mit atypischer Sprache dazu bringt, das Produkt aufzugeben.

4

Sprachende-Erkennung anpassen und in den Bedienungshilfen-Einstellungen sichtbar machen

Standard-Sprachende-Timeouts sind für neurotypische Sprechende ausgelegt. Eine nutzerseitige Option für erweiterte Pausen zu den Einstellungen des Assistenten-Skills hinzufügen (die Plattformen stellen Hooks bereit; Siris Pausezeit-Einstellung und Googles Sprechzeit-Einstellung sind die Referenzen). Diese über das System-Bedienungshilfen-Menü anbieten, nicht über eine versteckte Sprach-Registerkarte.

5

Gegen öffentliche Datensätze testen — nicht nur gegen das eigene Team

Das Speech Accessibility Project von Apple und der Evaluationsdatensatz des Project Euphonia sind für qualifizierte Forschende und Barrierefreiheitsteams öffentlich zugänglich. Sie decken die Kohorten ab, die das QA-Team mit an Sicherheit grenzender Wahrscheinlichkeit nicht repräsentiert. Wake-Word und Absichtsklassifikator vor jedem Release gegen eine ausgeglichene Teilmenge testen; WER und Absichtserfolg pro Kohorte verfolgen, nicht nur eine Gesamtkennzahl.


Fazit: Voice-UI-Barrierefreiheit ist ein Verteilungsproblem im Gewand eines UX-Problems

Die obige Matrix ist ernüchternd, aber auch lesbar. Jede Zelle mit einer Absichtsrate unter 50 % lässt sich einer erkennbaren Lücke in der Trainingsverteilung zuordnen — zu wenige dysarthrische Sprechende, zu wenig Stottern, zu wenig gehörlose Sprache, zu wenige Nicht-Muttersprachler des Englischen aus unterrepräsentierten L1-Hintergründen. Die Korrekturen sind nicht rätselhaft: den Datensatz erweitern, eine sprecher-adaptive Personalisierungsschicht aufbauen, Disambiguierung mit eingeschränktem Vokabular anbieten und auf jeder Oberfläche einen nicht-sprachbasierten Fallback liefern.

Von den vier getesteten Assistenten verbessert Googles Stack — Assistant plus Project Relate plus Voice Access — die meisten Zahlen für die meisten Kohorten, weil Google am konsequentesten in atypische Sprachdaten und geräteinterne Anpassung investiert hat. Apples „Auf atypische Sprache hören“, eingeführt in iOS 17, schließt den größten Teil der Lücke mit einem wesentlich geringeren Einrichtungsaufwand und einem vollständig geräteinternen Modell — eine starke Datenschutzgeschichte, die für eine Nutzergruppe wichtig ist, die möglicherweise unwohl dabei ist, Proben ihrer atypischen Sprache in die Cloud zu übertragen. Amazons Alexa liegt in der Personalisierungsarchitektur zurück; Samsungs Bixby liegt insgesamt zurück.

Für Designer ist die Erkenntnis: Der Assistent, den die Nutzenden verwenden, bestimmt die Hälfte der Untergrenze; die Muster, die drumherum aufgebaut werden, bestimmen den Rest. Disambiguierungsaufforderungen, Einstellungen für erweiterte Pausen, nicht-sprachbasierte Fallbacks und personalisierungsfreundliche Enrollment-Flows sind die vier Maßnahmen, die in den Nachläufen die meisten Zahlen verbessern. Keine davon erfordert ein Forschungsteam — nur ein Designsystem, das atypische Sprache als erstklassige Nutzerin oder erstklassigen Nutzer behandelt, nicht als Randfall.

„Die Lücke bei der Voice-UI-Barrierefreiheit ist größtenteils eine Lücke in der Trainingsverteilung mit einer dünnen UX-Schicht darüber. Personalisierung schließt den größten Teil der Lücke; nicht-sprachbasierte Fallbacks schließen den Rest.“

— Disability World Engineering-Redaktion, Mai 2026