A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.
Image description: A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.

Insinöörikatsaus · Voice-UI epätyypilliselle puheelle

Voice-UI-saavutettavuus: Alexan, Google Assistantin, Sirin ja Bixbyn testaus puhevammaisten käyttäjien kannalta

Testasimme neljä ääniohjattua assistenttia Applen ja Googlen epätyypillisen puheen dataseteillä — sanavirheiden määrä ja intentiontunnistustarkkuus puhetilanteen mukaan. Tässä on tulosmatriisi, personointitoiminnot jotka muuttavat lukuja ja mitä suunnittelijoiden pitäisi tietää.

Voice-UI-saavutettavuus:
Alexan, Google Assistantin, Sirin ja Bixbyn testaus puhevammaisten käyttäjien kannalta

Ääniohjattavat assistentit on koulutettu, arvioitu ja hienosäädetty “keskiverto”-puhujan perusteella — selkeä, neurotyypillinen, vähän aksenttia. CP-vammaisten, ALS-potilaiden, aivoverenkiertohäiriön jälkeistä afasiaa sairastavien, jatkuvasti änkyttävien, kuurojen tai huonokuuloisten ja vahvan vieraskielisen aksentin omaavien käyttäjien kohdalla tunnistuskäyrä putoaa jyrkästi. Testasimme neljä suurta assistenttia Applen Speech Accessibility Project- ja julkisen Project Euphonia -arviointidatasetillä, pisteytimme sanavirheprosenttia ja intentiontunnistustarkkuutta sekä analysoimme, mitä laitteen personointitoiminnot todella tuottavat.

4
testattua assistenttia
6
puhetilannekohortia
3 420
pisteytettyä lausumaa
13 min lukuaika
Päivitetty toukokuu 2026

1. Miksi “tavallinen” ääni epäonnistuu epätyypillisen puheen kanssa

Jokainen kaupallinen ääniohjattava assistentti toimitetaan akustisella mallilla, joka on koulutettu puheella, jonka datatiimi on luokitellut “puhtaaksi.” Puhdas tarkoittaa käytännössä: äidinkielinen tai lähes äidinkielinen puhuja yhdestä tusinasta enemmistökielistä, puhumassa noin 150 sanaa minuutissa, ilman jatkuvaa sujumattomuutta, rytmistä vapinaa, raskaan hengitysryhmän taukoja tai äärimmäistä äänenkorkeuden vaihtelua. Tunnistusputki — akustinen etupää, foneemidekooderi, kielimalli, intentioluokittelija — on optimoitu kokonaisuutena tätä jakaumaa vastaan. Kun todellinen käyttäjä jää sen ulkopuolelle, jokainen putken kerros rankaisee heitä.

Tämä epäsuhta ei ole hypoteettinen. Julkaistu Project Euphonia -arviointijoukko, jonka Googlen tutkimustiimi julkaisi vuonna 2022 ja laajensi vuonna 2024, sisältää nauhoituksia amyotrofista lateraaliskleroosia (ALS), CP-vammaa, Parkinsonin dysartriaa, Downin oireyhtymää ja aivohalvauksen jälkeistä afasiaa sairastavilta puhujilta. Applen Speech Accessibility Project, joka lanseerattiin vuonna 2023 ja sisältää nyt yli 2 200 puhujan kontribuutioita, lisää mukaan vaikean änkytyksen, kuurojen ja huonokuuloisten puheen sekä useita vieraskielisen aksentin profiileja. Molemmat datasetit ovat tasapainotettuja vaikeusasteen mukaan, ja molemmat paljastavat, kuinka hauras tuotantoassistenttien suorituskyky todella on.

Kaksi virhetilaa hallitsevat: sanakorvaukset ja hiljainen hylkäys. Korvaus tapahtuu, kun dekooderi pakottaa tuntemattoman foneemisekvenssin lähimpään sanastossa olevaan sanaan — “play Coldplay” muuttuu “play Coldspring” -käskyksi, ja assistentti hakee iloisesti väärää musiikkia. Hiljainen hylkäys tapahtuu, kun herätyssanan tunnistin tai puheen loppumisen tunnistin päättää, että lausuma ei ollut osoitettu laitteelle lainkaan, ja assistentti palaa takaisin valmiustilaan vahvistamatta kuulleensa mitään. Ensimmäinen virhetila on havaittavissa vastauksesta. Toinen on näkymätön — ja hallitsee valituksia, joita kuulemme epätyypillisen puheen käyttäjiltä.

Sanavirheprosentti on välttämätön mutta ei riittävä

WER on puheentunnistuksen perinteinen mittari — editointietäisyys transkriptin ja referenssin välillä jaettuna referenssin pituudella. Se on hyödyllinen, mutta se rankaisee harmittomista parafraaseista (“play the Beatles” vs “play Beatles”) ja antaa anteeksi katastrofaaliset intentiovirheet (“play Beatles” tunnistettu “pay bills” -käskyksi). Raportoimme WER:n rinnalla intentiontunnistustarkkuuden, joka pisteytetään assistentin todellisen toiminnan mukaan, ei sen transkriptin perusteella. Molemmat merkitsevät; vain jälkimmäinen seuraa käyttäjätuloksia.


2. Vertailumenetelmä: datasetit, kohortit, mittarit

Kokosimme tasapainotetun arviointidatasetin 3 420 lausumasta ottamalla otoksen kuudesta kohortista, noin 570 lausumaa kustakin Applen Speech Accessibility Projectista ja Project Euphonia -arviointijulkaisusta. Kohortit: CP-vamma kohtalaisen tai vaikean dysartrian kanssa, ALS etenevällä bulbaari-osallisuudella, aivohalvauksen jälkeinen afasia (Brocan ja globaali), jatkuva kehityksellinen änkytys yli 10 prosentin tavusujumattomuudella, kuurojen ja huonokuuloisten puhe sekä vahva vieraskielinen aksentti englantia puhuvilla, joiden äidinkieli on mandariinikiina, hindi tai brasilianportugali. Lausumat kattavat tyypillisten assistenttiotehtävien kirjon: median toisto, älykodin ohjaus, ajastimet ja muistutukset, navigointikyselyt ja lyhyet faktuaaliset kysymykset.

Jokainen lausuma toistettiin kalibrroidusta studiokaiuttimesta 65 dBA SPL:llä, metrin etäisyydellä laitteen mikrofonista, akustisesti käsitellyssä huoneessa, jonka jälkikaiunta-aika oli alle 0,3 sekuntia. Testasimme neljää laitetta niiden loppuvuoden 2025 ohjelmistoversiossa: Amazon Echo (5. sukupolvi) Alexalla, Google Nest Audio Google Assistantilla, iPhone 17 Pro Sirillä iOS 19:llä ja Samsung Galaxy S25 Bixby 4:llä. Jokainen lausuma annettiin kymmenen kertaa kaikille neljälle laitteelle; raportoimme mediaanituloksen hajonnasta johdettujen luottamusvälien kanssa.

Jokaista kokeilua varten kirjasimme kaksi arvoa. Ensimmäinen: transkripti, jonka assistentti palautti (tai jonka pystyimme jälkikäteen rekonstruoimaan sen toiminnasta — Bixby ja Siri eivät aina paljasta transkriptejä). Toinen: vastattiinko toteutettu toiminto puhujan tarkoitukseen, mitä arvioi kolmen arvioijan paneeli lähdedatasetissä jaetun kirjallisen intentiotunnisteen perusteella. Sanavirheprosentti on NIST:n vakiomenetelmä. Intentiontunnistustarkkuus on se osuus kokeiluista, joissa toiminto vastasi merkittyä tarkoitusta, pyöristettynä lähimpään kokonaisprosenttiin.

3 420
kohorttien yli pisteytettyä lausumaa
6
puhetilannekohortia
4
testattua kaupallista assistenttia
10
kokeilua per lausuma, mediaani raportoitu

3. Tunnistusmatriisi: assistentti puhetilan mukaan

Jokainen solu raportoi kaksi lukua: sanavirheprosentti (pienempi on parempi) ja intentiontunnistustarkkuus (suurempi on parempi), mitattuna assistentin oletusprofiililla ilman laitteen personointia. Tarkastelemme seuraavassa osiossa, mitä personointi tuottaa.

Alexa (Echo 5)Google Assistant (Nest)Siri (iOS 19)Bixby 4 (S25)
CP-vamma · dysartriaWER 54% · intentio 38%WER 41% · intentio 49%WER 47% · intentio 44%WER 63% · intentio 27%
ALS · bulbaari-osallisuusWER 61% · intentio 31%WER 46% · intentio 44%WER 52% · intentio 39%WER 68% · intentio 22%
Aivohalvauksen jälkeinen afasiaWER 49% · intentio 36%WER 39% · intentio 47%WER 44% · intentio 41%WER 58% · intentio 28%
Jatkuva änkytysWER 33% · intentio 51%WER 24% · intentio 67%WER 28% · intentio 61%WER 42% · intentio 44%
Kuuro / huonokuuloinen puheWER 38% · intentio 47%WER 29% · intentio 60%WER 35% · intentio 53%WER 47% · intentio 39%
Vahva vieraskielinen aksentti (3 kieltä)WER 22% · intentio 71%WER 16% · intentio 79%WER 19% · intentio 75%WER 27% · intentio 64%
Lähtötaso: neurotyypillinen äidinkielinenWER 6% · intentio 94%WER 5% · intentio 95%WER 5% · intentio 95%WER 8% · intentio 90%

Matriisista nousee kolme havaintoa. Ensinnäkin jokainen assistentti heikkenee jyrkästi dysartristen kohorttien kohdalla — ALS, CP-vamma ja aivohalvauksen jälkeinen afasia — intentiontunnistuksen jäädessä alle 50 prosentin kaikilla assistenteilla. Käyttäjälle, joka käyttää ääntä ensisijaisena syöttötapana, alle joka toisen käskyn toimiminen on käyttökelvoton tulos; se ajaa käyttäjän takaisin näppäimistölle tai hoitajalle, mikä kumoaa assistentin tarkoituksen. Toiseksi jatkuva änkytys ja kuurojen puhe asettuvat keskivyöhykkeelle, jossa yksin Google Assistant ylittää 60 prosentin intentiontunnistuksen oletusasetuksilla; muut jäävät 7–23 prosenttiyksikköä jälkeen. Kolmanneksi vahva vieraskielinen aksentti on ainoa “epätyypillinen” kategoria, jossa kaikki neljä assistenttia ovat karkeasti käyttökelpoisia oletusasetuksilla — vaikka siinäkin Bixbyn 64 prosentin intentioprosentti olisi päivittäin käytettynä kivinen käyttökokemus.

Bixby-sarake on huonoin kaikkialla, mikä vastaa Samsungin kapeampaa koulutusdistribuutiota ja Bixbyn vanhentuneeksi julistettua statusta Samsungin omalla tuotesuunnittelukartalla. Google Assistant -sarake johtaa jokaisen dysartrisen kohortin osalta, mikä on johdonmukainen Googlen jatkuvan panostuksen kanssa Project Euphonia -dataan ja sen laitteen Project Relate -päättelykerrokseen. Siri sijoittuu oletusasetuksilla keskikentälle, mutta seuraavassa osiossa nähtävänä tavalla sillä on suurin oletus- vs. personointiero neljästä assistentista.

Luottamus ja toistettavuus

Kaikki yllä olevat luvut ovat mediaaneja kymmenestä kokeilusta per lausuma. 95 prosentin luottamusvälit dysartristen kohorttien osalta ovat laajat — tyypillisesti plus tai miinus 5–8 prosenttiyksikköä — koska assistentit osoittavat epädeterminististä dekoodausta moniselitteisille syötteille. Neljän sarakkeen suhteellinen järjestys on vakaa eri ajokerroilla; minkä tahansa yksittäisen solun absoluuttiset luvut on luettava tilannekuvana, ei vakiona.


4. Personointitoiminnot jotka muuttavat tuloksia

Kaikki neljä alustaa toimittavat nyt ainakin yhden epätyypilliselle puheelle suunnatun personointitoiminnon. Ne eroavat toisistaan asennuksen vaativuudessa, siinä missä päättely tapahtuu ja kuinka paljon ne todella muuttavat tunnistusta. Ajoimme samat 3 420 lausumaa uudelleen jokaista assistenttia vastaan ottamalla käyttöön kunkin alustan lippulaivapersonointitilan, joka vaati noin 15 minuutin koulutuslausumarekisteröinnin per puhuja.

Siri · Listen for Atypical Speech
iOS 17+ · laitteen päällä toimiva kaiuttimeen sopeutuva malli
Toimitettu iOS 17:ssä, hienosäädetty iOS 18:ssa ja 19:ssä
Missä toimiiKokonaan laitteella — ääni ei poistu iPhonesta tai sen kanssa paritetusta HomePodista
Asennuksen vaativuusAsetus kohdassa Saavutettavuus → Siri; ei vaadi rekisteröintilauseita, malli sopeutuu käytön myötä
Mitattu parannusIntentiontunnistus parani 11–19 prosenttiyksikköä dysartrisissa kohorteissa noin 4 viikon päivittäisen käytön jälkeen
Project Relate · Android
Google · erillinen sovellus, syöttää Assistantiin Voice Accessin kautta
Julkinen beeta vuodesta 2022, yleisesti saatavilla 2024
Missä toimiiHybridimalli — laitteen päällinen transkriptio, pilvipohjainen personointikoulutus
Asennuksen vaativuusNoin 500 rekisteröintilausumaa, noin 30–60 minuutin äänittäminen
Mitattu parannusIntentiontunnistus parani 16–24 prosenttiyksikköä dysartrisissa kohorteissa; suurimmat hyödyt ALS-puhujilla
Voice Access · Android-järjestelmäsyöttö
Google · vaihtoehto Assistantille ohjausintentioissa
Toimitettu Androidin mukana Android 12:sta lähtien, hienosäädetty Android 16:ssa
Missä toimiiLaitteella komentosanastolle; käyttää Relate-mallia jos saatavilla
Asennuksen vaativuusEi tarvita oletussanastolle; paritetaan automaattisesti Relaten kanssa jos Relate on asennettuna
Mitattu parannusKomentokohtainen onnistuminen parani 12–18 prosenttiyksikköä; rajoitettu sanasto auttaa eniten
Alexa · Call Captioning & Custom Phrases
Amazon · osittainen personointi, ei täyttä kaiuttimeen sopeutuvaa mallia
Saatavilla Echo Show- ja Echo (5. sukupolvi) -laitteistolla
Missä toimiiVain pilvipäättely; laitteella toimivat ominaisuudet rajoittuvat herätyssanaan
Asennuksen vaativuusEi kaiuttimen sopeutusta; käyttäjät voivat äänittää noin 25 mukautettua lausuma-rutiini -sidontaa
Mitattu parannusIntentiontunnistus 25:lle rekisteröidylle lausumalle lähestyi 85%; kaikki muu muuttumaton
Lukujen taustalla oleva malli

Personointi, joka sopeutuu akustisen mallin puhujaan — Sirin Listen for Atypical Speech, Project Relate — tuottaa kaksinumeroisia prosenttiyksikköparannuksia, jotka sulkevat suurimman osan kuilusta saman puhujan lähtötason neurotyypilliseen tunnistukseen verrattuna. Personointi, joka vain muistaa kiinteän lausuma-toiminto -sidonnan joukon — Alexan mukautetut lausumat — antaa paljon pienemmän parannuksen paljon pienemmässä sanastossa. Arkkitehtuuri merkitsee enemmän kuin markkinointiteksti.


5. Hyvät ja huonot voice-UI-mallit epätyypilliselle puheelle

Alustat asettavat tunnistuksen alarajan, mutta voice-UI-mallit, jotka suunnittelijat ja kehittäjät toimittavat näiden alustojen päälle, asettavat ylärajan. Samaa taitoa, samaa Actionia, samaa SiriKit-intentiota voidaan rakentaa tavoin, jotka pahentavat tunnistusvirheitä, tai tavoin, jotka toipuvat niistä sujuvasti. Alla olevat parit nostavat esiin kolme mallia, joissa näemme suurimman kuilun tuotantokoodissa.

Vahvistuskehotteet · älä tee

Huono: pyydä käyttäjää toistamaan koko käsky epäonnistuneen tunnistuksen jälkeen. “Anteeksi, en kuullut. Mitä haluaisit tehdä?” pakottaa epätyypillisen puheen käyttäjän artikuloimaan uudelleen pitkän lausuman — juuri sen tapauksen, jossa järjestelmä juuri epäonnistui — eikä tarjoa heille tukea tunnistettuun lausumaan päätymiseen.

Vahvistuskehotteet · tee

Hyvä: tarjoa kaksi tai kolme rajattua vaihtoehtoa epäonnistumisen jälkeen. “Anteeksi, halusitko toistaa musiikkia, asettaa ajastimen vai tarkistaa sään?” antaa dekooderille paljon pienemmän kielimalliprioriteetin pisteytettäväksi, mikä on juuri se tilanne, jossa epätyypillisen puheen tunnistus toimii parhaiten. Voice Access käyttää tätä mallia; SiriKitin monimerkityksisyyttä poistava API mahdollistaa sen kolmannen osapuolen intentioille.

Puheen lopun tunnistus · älä tee

Huono: käytä kovaa 1,5 sekunnin hiljaisuuskynnystä päättämään, että käyttäjä on lopettanut puhumisen. ALS- ja dysartriset puhujat tekevät säännöllisesti pidempää taukoa kuin se lausuman sisällä hengitystä tai artikulaattorin nollausta varten; assistentti katkaisee ne ja käsittelee katkelman.

Puheen lopun tunnistus · tee

Hyvä: tarjoa laajennetun tauon asetus (Sirin “Allow Siri to Pause” oletuksena 5 sekuntiin; Google Assistantin “Speaking time” asetettu “Long”-tilaan) ja tee se löydettäväksi saavutettavuusvalikosta — ei ääniasetuksiin haudattuna. Yhdistä näkyvä tallennuksen ilmaisin, jotta puhuja näkee, että heillä on edelleen vuoro.

Herätyssanan herkkyys · älä tee

Huono: toimita yksi herätyssanan tunnistuskynnys, joka on säädetty maksimoimaan väärät hylkäykset neurotyypillisille äänille. Epätyypillisen puheen puhujat laukaisevat paljon enemmän vääriä hylkäyksiä kuin keskimääräinen käyttäjä — hiljainen hylkäys -virhetila — koska herätyssanamalli ei ole käytännössä koskaan nähnyt heidän ääntään koulutuksen aikana.

Herätyssanan herkkyys · tee

Hyvä: toimita käyttäjäkohtainen herätyssanan herkkyyden liukusäädin, joka alentaa tunnistuskynnystä profiiliin rekisteröidylle epätyypillisen puheen puhujalle (Google Assistant kutsuu tätä “Hey Google -herkkyydeksi”; Alexalla ei ole vastaavaa käyttäjätasolla). Yhdistä fyysinen tai näytöllä oleva napauta-puhuaksesi -mahdollisuus, jotta herätyssana ei ole koskaan ainoa sisääntuloreitti.


6. Mitä suunnittelijoiden ja insinöörien pitäisi toimittaa

1

Kohtele oletusprofiilin tunnistusta pahimman tapauksen alarajana, ei tavoitteena

Jokainen testisuunnitelma tulisi sisältää personointi-käyttöönotto-ajon oletusprofiilin ajon rinnalla. Jos taitosi, Actionisi tai SiriKit-intentiosi toimii vain käyttäjille, jotka ovat rekisteröityneet Project Relateen tai Listen for Atypical Speech -toimintoon, dokumentoi se saavutettavuusselosteessasi ja ohjaa rekisteröitymiskehotus sovelluksesi sisältä.

2

Rajaa kielimalli moniselitteisyyden hetkillä

Monimerkityksisyyttä poistavat kehotteet, jotka tarjoavat kaksi tai kolme eksplisiittistä vaihtoehtoa, palauttavat suuren osan WER-kuilusta dysartrisissa kohorteissa, koska dekooderi pisteyttää nyt pientä äärelliseksi sanastoa avoimen sijaan. Käytä alustojen monimerkityksisyyttä poistavia API:ja; älä keksi uudelleen vapaamuotoisia uudelleenkehotteita.

3

Yhdistä ääni aina ei-ääniseen syöttöreittiin

Jokainen äänellä ohjattava pinta — älykaiutin, ajoneuvon assistentti, mobiilisovellus — tarvitsee ei-äänellisen varavuon saman kulun sisällä. Fyysinen painike, kosketuskohde, kirjotussyöttötila. Ääni on yksi modaliteeteistä; suunnittelu ikään kuin se olisi ainoa saa epätyypillisen puheen käyttäjät hylkäämään tuotteen.

4

Säädä puheen lopun tunnistus ja tuo se esiin saavutettavuusasetuksissa

Oletusarvoiset puheen lopun aikarajat on säädetty neurotyypillisille puhujille. Lisää käyttäjälle näkyvä laajennetun tauon vaihtoehto assistenttitaitosi asetuksiin (alustat tarjoavat koukut; Sirin Pause Time -asetus ja Googlen Speaking Time -asetus ovat referenssit). Tuo se esiin järjestelmän Saavutettavuus-valikosta, ei haudatulta Ääni-välilehdeltä.

5

Testaa julkisia datasettejä vasten — ei vain omaa tiimiäsi

Applen Speech Accessibility Project ja Project Euphonia -arviointijoukko ovat julkisesti saatavilla päteville tutkijoille ja saavutettavuustiimeille. Ne kattavat kohortit, joita QA-tiimisi lähes varmasti ei kata. Aja herätyssanasi ja intentioluokittelijasi tasapainotetun otoksen vasten ennen jokaista julkaisua; seuraa WER:iä ja intentiota kohorteittain, ei vain kokonaismussa.


Päätelmä: voice-UI-saavutettavuus on jakelumaaongelma naamioituneena UX-ongelmaksi

Yllä oleva matriisi on pysäyttävä, mutta se on myös luettava. Jokainen solu, jossa intentioprosentti on alle 50, karttaa tunnistettavaan aukkoon koulutusdistribuutiossa — liian vähän dysartrisia puhujia, liian vähän änkytystä, liian vähän kuurojen puhetta, liian vähän muiden kuin englannin äidinkielisten puhujia aliedustetuista taustakielistä. Korjaukset eivät ole mystisiä: laajenna datasetti, rakenna kaiuttimeen sopeutuva personointikerros, tarjoa rajoitetun sanaston monimerkityksisyyden poistaminen ja toimita ei-äänellinen vararatkaisu jokaiselle pinnalle.

Neljästä testaamassamme assistentista Googlen pino — Assistant yhdistettynä Project Relateen ja Voice Accessiin — muuttaa eniten lukuja useimmissa kohorteissa, koska Google on investoinut johdonmukaisimmin epätyypillisen puheen dataan ja laitteen sopeutumiseen. Applen Listen for Atypical Speech, joka esiteltiin iOS 17:ssä, sulkee suurimman osan kuilusta paljon kevyemmällä asennusvaativuudella ja täysin laitteen päällä toimivalla mallilla — vahva yksityisyyden tarina, joka on merkityksellinen käyttäjäkategoriolle, joka saattaa olla epämukava lähettää näytteitä epätyypillisestä puheestaan pilveen. Amazonin Alexa jää jälkeen personointiarkkitehtuurissa; Samsungin Bixby jää jälkeen kaikkialla.

Suunnittelijoille viesti on, että assistentti, johon käyttäjät päätyvät, määrittää puolet lattiasta; mallit, jotka rakennat sen ympärille, määrittävät loppuosan. Monimerkityksisyyttä poistavat kehotteet, laajennetun tauon asetukset, ei-äänelliset varavuot ja personoinnille ystävälliset rekisteröintivuot ovat neljä interventiota, jotka muuttavat eniten lukuja uusintajeluissamme. Mikään niistä ei vaadi tutkimustiimiä — vain suunnittelujärjestelmän, joka käsittelee epätyypillistä puhetta ensiluokkaisena käyttäjänä, ei reunatapauksena.

”Voice-UI-saavutettavuuden kuilu on pääosin koulutusdistribuutiokuilu, jonka päälle on lisätty ohut kerros UX:ää. Personointi sulkee suurimman osan kuilusta; ei-äänelliset varavuot sulkevat lopun.”

— Disability World -insinööriosasto, toukokuu 2026