Dostępność interfejsów głosowych:
testy Alexa, Google Assistant, Siri i Bixby dla użytkowników z zaburzeniami mowy
Asystenty głosowe są trenowane, oceniane i dostrajane względem „przeciętnego“ mówiącego — wyraźnego, neurotypowego, bez silnego akcentu. Dla użytkowników z mózgowym porażeniem dziecięcym, ALS, afazją poudarową, jąkaniem, mową osób głuchych lub niedosłyszących i silnym akcentem nienatywnym krzywa rozpoznawania gwałtownie spada. Zbadano cztery główne asystenty na zbiorze Apple Speech Accessibility Project i publicznym zestawie ewaluacyjnym Project Euphonia, oceniono wskaźnik błędów słów i skuteczność rozpoznawania intencji, a następnie przeanalizowano, co faktycznie dają wbudowane funkcje personalizacji na urządzeniu.
1. Dlaczego „przeciętny“ głos zawodzi przy nietypowej mowie
Każdy komercyjny asystent głosowy jest dostarczany z modelem akustycznym wytrenowanym na mowie, którą zespół zajmujący się danymi oznaczył jako „czystą“. Czysta mowa w praktyce oznacza: rodzimego lub zbliżonego do rodzimego użytkownika jednego z kilkunastu języków większościowych, mówiącego w tempie ok. 150 słów na minutę, bez stałej dysfluencji, bez rytmicznego drżenia, bez trudu z grupami oddechowymi i bez ekstremalnych wahań tonu. Potok rozpoznawania — akustyczny front-end, dekoder fonemów, model językowy, klasyfikator intencji — jest optymalizowany end-to-end względem tego rozkładu. Gdy rzeczywisty użytkownik wykracza poza ten profil, każda warstwa potoku go penalizuje.
Ta rozbieżność nie jest hipotetyczna. Opublikowany zestaw ewaluacyjny Project Euphonia, udostępniony przez zespół badawczy Google w 2022 r. i rozszerzony w 2024 r., zawiera nagrania osób ze stwardnieniem zanikowym bocznym (ALS), mózgowym porażeniem dziecięcym, parkinsonowską dysartrią, zespołem Downa i afazją poudarową. Apple Speech Accessibility Project, uruchomiony w 2023 r. i obejmujący obecnie wkłady od ponad 2 200 mówców, uzupełnia go o ciężkie jąkanie, mowę osób głuchych i niedosłyszących oraz kilka profili akcentu nienatywnego. Oba zbiory danych są zbilansowane pod kątem stopnia nasilenia zaburzenia i oba ujawniają, jak kruche są produkcyjne asystenty w rzeczywistości.
Dwa dominujące rodzaje błędów to zastąpienie słowa i ciche odrzucenie. Zastąpienie zachodzi, gdy dekoder narzuca nieznaną sekwencję fonemów na najbliższe słowo ze słownika — „play Coldplay“ staje się „play Coldspring“ i asystent radośnie pobiera złą muzykę. Ciche odrzucenie ma miejsce, gdy detektor słowa aktywującego lub detektor końca wypowiedzi uzna, że komunikat nie był skierowany do urządzenia, i asystent usypia bez potwierdzenia. Pierwszy rodzaj błędu jest audytowalny z odpowiedzi. Drugi jest niewidoczny — i dominuje w skargach użytkowników z nietypową mową.
WER to historyczna metryka rozpoznawania mowy — odległość edycyjna między transkrypcją a prawdziwym tekstem, podzielona przez długość referencji. Jest przydatna, lecz karze za nieszkodliwe parafrazy („play the Beatles“ vs „play Beatles“) i przepuszcza katastrofalne błędy intencji („play Beatles“ rozpoznane jako „pay bills“). Obok WER raportowany jest wskaźnik skuteczności rozpoznawania intencji, oceniany na podstawie faktycznej akcji asystenta, a nie jego transkrypcji. Obie metryki mają znaczenie; tylko druga śledzi wyniki użytkownika.
2. Benchmark: zbiory danych, kohorty, metryki
Zebrano zbilansowany zestaw ewaluacyjny liczący 3 420 wypowiedzi, próbkując sześć kohort po ok. 570 wypowiedzi z Apple Speech Accessibility Project i zestawu ewaluacyjnego Project Euphonia. Kohorty: mózgowe porażenie dziecięce z umiarkowaną do ciężkiej dysartrią, ALS z postępującym zajęciem opuszki, afazja poudarowa (Broki i globalna), przetrwałe jąkanie z dysfluencją sylabu powyżej 10%, mowa osób głuchych i niedosłyszących oraz silny akcent nienatywny dla rodzimych użytkowników języków mandaryńskiego, hindi i brazylijskiego portugieskiego. Wypowiedzi obejmują kanoniczny spektrum zadań asystenta: odtwarzanie mediów, sterowanie domem inteligentnym, timery i przypomnienia, zapytania nawigacyjne i krótkie pytania faktyczne.
Każda wypowiedź była odtwarzana z kalibrowanego monitora studyjnego przy 65 dBA SPL, jeden metr od mikrofonu urządzenia, w akustycznie przystosowanym pomieszczeniu z czasem pogłosu poniżej 0,3 sekundy. Testowano cztery urządzenia w stanie firmware z końca 2025 r.: Amazon Echo (5. gen.) z Alexą, Google Nest Audio z Google Assistant, iPhone 17 Pro z Siri pod kontrolą iOS 19 oraz Samsung Galaxy S25 z Bixby 4. Każda wypowiedź była podawana dziesięciokrotnie na każdym z czterech urządzeń; raportowana jest mediana przebiegów z przedziałami ufności obliczonymi na podstawie rozrzutu wyników.
W każdej próbie rejestrowano dwie wartości. Po pierwsze: transkrypcja zwrócona przez asystenta (lub odtworzona na podstawie jego akcji — Bixby i Siri nie zawsze udostępniają transkrypcję). Po drugie: czy wykonana akcja odpowiadała intencji mówiącego, oceniane przez panel trzech oceniających na podstawie pisemnego opisu intencji dołączonego do zbioru źródłowego. Wskaźnik błędów słów obliczono zgodnie ze standardową formułą NIST. Wskaźnik skuteczności rozpoznawania intencji to odsetek prób, w których akcja odpowiadała oznaczonej intencji, zaokrąglony do pełnego procentu.
3. Macierz rozpoznawania: asystent według zaburzenia mowy
Każda komórka podaje dwie wartości: wskaźnik błędów słów (niższy jest lepszy) i wskaźnik skuteczności rozpoznawania intencji (wyższy jest lepszy), zmierzone przy domyślnym profilu asystenta bez włączonej personalizacji na urządzeniu. Wpływ personalizacji omówiono w kolejnej sekcji.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Mózgowe porażenie dziecięce · dysartria | WER 54% · intencja 38% | WER 41% · intencja 49% | WER 47% · intencja 44% | WER 63% · intencja 27% |
| ALS · zajęcie opuszki | WER 61% · intencja 31% | WER 46% · intencja 44% | WER 52% · intencja 39% | WER 68% · intencja 22% |
| Afazja poudarowa | WER 49% · intencja 36% | WER 39% · intencja 47% | WER 44% · intencja 41% | WER 58% · intencja 28% |
| Przetrwałe jąkanie | WER 33% · intencja 51% | WER 24% · intencja 67% | WER 28% · intencja 61% | WER 42% · intencja 44% |
| Mowa głuchych / niedosłyszących | WER 38% · intencja 47% | WER 29% · intencja 60% | WER 35% · intencja 53% | WER 47% · intencja 39% |
| Silny akcent nienatywny (3 języki) | WER 22% · intencja 71% | WER 16% · intencja 79% | WER 19% · intencja 75% | WER 27% · intencja 64% |
| Linia bazowa: neurotypowy L1 | WER 6% · intencja 94% | WER 5% · intencja 95% | WER 5% · intencja 95% | WER 8% · intencja 90% |
Z macierzy wynikają trzy obserwacje. Po pierwsze, każdy asystent gwałtownie pogarsza wyniki wobec kohort z dysartrią — ALS, mózgowym porażeniem dziecięcym i afazją poudarową — przy skuteczności rozpoznawania intencji poniżej 50% we wszystkich przypadkach. Dla użytkownika, który posługuje się głosem jako podstawową modalności wejściową, mniej niż jedno na dwa polecenia działające to coś nieużywalnego; zmusza do powrotu do klawiatury lub opiekuna, co niweczy sens asystenta. Po drugie, przetrwałe jąkanie i mowa głuchych plasują się w środkowym paśmie, gdzie tylko Google Assistant przekracza 60% skuteczności intencji przy domyślnych ustawieniach; pozostałe asystenty pozostają w tyle o 7 do 23 punktów procentowych. Po trzecie, silny akcent nienatywny to jedyna „atypowa“ kategoria, w której wszystkie cztery asystenty są z grubsza użyteczne przy domyślnych ustawieniach — choć nawet tu 64% skuteczności intencji Bixby byłoby brutalnym doświadczeniem użytkownika każdego dnia.
Kolumna Bixby jest najgorsza we wszystkich kategoriach, co jest spójne z węższą dystrybucją treningową Samsunga i przestarzałym statusem Bixby w samej mapie drogowej produktów Samsunga. Kolumna Google Assistant prowadzi w każdej kohortzie z dysartrią, co jest zgodne z konsekwentnym inwestowaniem Google w dane Project Euphonia i warstwę wnioskowania on-device Project Relate. Siri plasuje się w środku stawki przy domyślnych ustawieniach, lecz — jak pokazuje kolejna sekcja — ma największą spośród czterech asystentów przepaść między wynikami domyślnymi a wynikami po personalizacji.
Wszystkie powyższe liczby to mediany z dziesięciu przebiegów próbnych na wypowiedź. 95-procentowe przedziały ufności dla kohort z dysartrią są szerokie — zazwyczaj plus/minus 5 do 8 punktów procentowych — ponieważ asystenty wykazują niedeterministyczne dekodowanie dla niejednoznacznych danych wejściowych. Względna kolejność czterech kolumn jest stabilna przy powtórnych uruchomieniach; wartości bezwzględne w poszczególnych komórkach należy traktować jako migawkę, a nie stałą.
4. Funkcje personalizacji zmieniające wyniki
Wszystkie cztery platformy oferują co najmniej jedną funkcję personalizacji skierowaną do użytkowników z nietypową mową. Różnią się kosztem konfiguracji, miejscem uruchomienia wnioskowania i faktycznym wpływem na rozpoznawanie. Te same 3 420 wypowiedzi przetestowano ponownie dla każdego asystenta po włączeniu flagowego trybu personalizacji danej platformy, z rejestracją głosu użytkownika przez ok. 15 minut.
Personalizacja adaptująca model akustyczny do mówcy — Siri „Słuchaj mowy atypowej“, Project Relate — daje dwucyfrowe przyrosty punktowe zamykające większość luki względem bazowego rozpoznawania neurotypowego dla tego samego mówcy. Personalizacja jedynie zapamiętująca stały zestaw powiązań wypowiedź-akcja — niestandardowe frazy Alexa — daje znacznie mniejszy przyrost dla znacznie mniejszego słownika. Architektura ma większe znaczenie niż tekst marketingowy.
5. Dobre i złe wzorce voice-UI dla nietypowej mowy
Platformy wyznaczają minimalny poziom rozpoznawania, lecz wzorce voice-UI, które projektanci i deweloperzy budują na tych platformach, wyznaczają sufit. Ta sama umiejętność, ten sam Action, ta sama intencja SiriKit mogą być zbudowane w sposób pogłębiający błędy rozpoznawania lub w sposób pozwalający na eleganckie ich odzyskanie. Poniższe pary ilustrują trzy wzorce, w których obserwujemy największe rozbieżności w produkcyjnym kodzie.
Źle: prosić użytkownika o powtórzenie całego polecenia po nieudanym rozpoznaniu. „Przepraszam, nie dosłyszałem. Co chciałeś zrobić?“ zmusza użytkownika z zaburzeniami mowy do ponownego wyartykułowania długiej wypowiedzi — dokładnie tego przypadku, w którym system właśnie zawiódł — bez żadnego rusztowania pozwalającego trafić na rozpoznawalną frazę.
Dobrze: po nieudanym rozpoznaniu zaproponować dwie lub trzy ograniczone opcje. „Przepraszam, czy chciałeś odtworzyć muzykę, ustawić timer, czy sprawdzić pogodę?“ daje dekoderowi znacznie mniejszy prior modelu językowego do oceny — co jest dokładnie tym warunkiem, w którym rozpoznawanie mowy atypowej sprawdza się najlepiej. Voice Access używa tego wzorca; interfejs API SiriKit Disambiguation udostępnia go dla intencji stron trzecich.
Źle: polegać na stałym progu 1,5-sekundowej ciszy, by stwierdzić, że użytkownik skończył mówić. Mówcy z ALS i dysartrią regularnie robią dłuższe przerwy mid-wypowiedzi na oddech lub resetowanie aparatu artykulacyjnego; asystent przerywa im i przetwarza fragment.
Dobrze: udostępnić ustawienie wydłużonej pauzy (Siri „Zezwól Siri na pauzę“ ustawione domyślnie na 5 sekund; Google Assistant „Czas mówienia“ ustawiony na „Długi“) i sprawić, by było ono widoczne z menu dostępności — a nie ukryte w ustawieniach głosu. Połączyć z widocznym wskaźnikiem nagrywania, żeby mówca widział, że nadal ma głos.
Źle: dostarczać jednego progu wykrywania słowa aktywującego dostrojonego do maksymalizacji wskaźnika fałszywego odrzucenia dla głosów neurotypowych. Mówcy z atypową mową generują znacznie więcej fałszywych odrzuceń niż przeciętny użytkownik — typ cichego odrzucenia — ponieważ model słowa aktywującego efektywnie nigdy nie widział ich głosu podczas treningu.
Dobrze: udostępnić suwak czułości słowa aktywującego per-użytkownik obniżający próg wykrywania dla zarejestrowanego profilu mówcy z atypową mową (Google Assistant nazywa to „Czułość Hey Google“; Alexa nie ma odpowiednika na poziomie użytkownika). Połączyć z fizycznym lub ekranowym dotykiem-do-mówienia, żeby słowo aktywujące nigdy nie było jedyną ścieżką wejściową.
6. Co powinni wdrażać projektanci i inżynierowie
Traktuj rozpoznawanie na domyślnym profilu jako najgorszy możliwy wynik, nie cel
Każdy plan testowy powinien zawierać przebieg z włączoną personalizacją obok przebiegu z profilem domyślnym. Jeśli umiejętność, Action lub intencja SiriKit działa tylko dla użytkowników, którzy zarejestrowali się w Project Relate lub „Słuchaj mowy atypowej“, należy to udokumentować w deklaracji dostępności i wyświetlić monitowi o rejestrację z poziomu aplikacji.
Ograniczaj model językowy w momentach niejednoznaczności
Monity ujednoznaczniające oferujące dwie lub trzy wyraźne opcje odzyskują dużą część luki WER w kohortach z dysartrią, ponieważ dekoder ocenia teraz względem małego skończonego słownika zamiast otwartego. Należy używać platformowych interfejsów API ujednoznaczniania, a nie wynajdować od nowa dowolne ponowne monity.
Zawsze łączyć głos z niewerbalną ścieżką wejściową
Każda powierzchnia sterowania głosem — inteligentny głośnik, asystent samochodowy, aplikacja mobilna — potrzebuje niewerbalnej alternatywy w tym samym przepływie. Fizyczny przycisk, cel dotykowy, tryb wpisywania tekstu. Głos to jedna z modalności; projektowanie tak, jakby była jedyną, sprawia, że użytkownicy z atypową mową porzucają produkt.
Dostroić wykrywanie końca wypowiedzi i udostępnić je w ustawieniach dostępności
Domyślne limity czasu końca wypowiedzi są dostrojone dla mówców neurotypowych. Należy dodać widoczną dla użytkownika opcję wydłużonej pauzy w ustawieniach umiejętności asystenta (platformy udostępniają hooki; ustawienie Czas pauzy Siri i ustawienie Czas mówienia Google to punkty odniesienia). Udostępnić je z systemowego menu Dostępność, a nie z ukrytej karty Głos.
Testować na publicznych zbiorach danych — nie tylko na własnym zespole
Apple Speech Accessibility Project i zestaw ewaluacyjny Project Euphonia są publicznie dostępne dla kwalifikujących się badaczy i zespołów ds. dostępności. Obejmują kohorty, których zespół QA prawie na pewno nie zawiera. Należy uruchamiać klasyfikator słowa aktywującego i intencji na zbilansowanej podgrupie przed każdym wydaniem; śledzić WER i skuteczność intencji per-kohorta, a nie tylko łączną liczbę.
Podsumowanie: dostępność voice-UI to problem rozkładu danych, a nie problem UX
Powyższa macierz jest przygnębiająca, lecz czytelna. Każda komórka ze skutecznością intencji poniżej 50% odpowiada rozpoznawalnemu brakowi w rozkładzie treningowym — za mało mówców z dysartrią, za mało jąkania, za mało mowy głuchych, za mało nienatywnych użytkowników angielskiego z niedoreprezentowanymi językami ojczystymi. Rozwiązania nie są tajemnicze: powiększyć zbiór danych, zbudować adaptacyjną warstwę personalizacji głosu, udostępnić ujednoznacznianie z ograniczonym słownikiem i dostarczyć niewerbalną alternatywę na każdej powierzchni.
Spośród czterech testowanych asystentów stos Google — Assistant plus Project Relate plus Voice Access — przesuwa największą liczbę wyników w największej liczbie kohort, ponieważ Google inwestuje najkonsekwentniej w dane mowy atypowej i adaptację on-device. Funkcja Apple „Słuchaj mowy atypowej“, wprowadzona w iOS 17, zamyka większość luki przy znacznie niższym koszcie konfiguracji i w pełni działającym modelu on-device — jest to silna historia prywatności, która ma znaczenie dla kategorii użytkowników mogących czuć dyskomfort z przesyłaniem próbek swojej atypowej mowy do chmury. Alexa Amazon pozostaje w tyle pod względem architektury personalizacji; Bixby Samsunga pozostaje w tyle we wszystkich kategoriach.
Dla projektantów wniosek jest taki, że asystent, na którym lądują użytkownicy, wyznacza połowę poziomu minimalnego; wzorce budowane dookoła niego wyznaczają resztę. Monity ujednoznaczniające, ustawienia wydłużonej pauzy, niewerbalane alternatywy i przepływy rejestracyjne przyjazne dla personalizacji to cztery interwencje, które w testach dają największe przyrosty. Żadna z nich nie wymaga zespołu badawczego — jedynie systemu projektowania traktującego atypową mowę jako pełnoprawnego użytkownika, nie jako przypadek brzegowy.
„The voice-UI accessibility gap is mostly a training-distribution gap with a thin layer of UX on top. Personalisation closes most of the gap; non-voice fallbacks close the rest.“