Достъпност на гласовия интерфейс:
тестване на Alexa, Google Assistant, Siri и Bixby за потребители с говорни увреждания
Гласовите асистенти се обучават, оценяват и настройват спрямо „среден“ говорещ — ясен, неврологически типичен, с лек акцент. За потребителите с церебрална парализа, ALS, постинсултна афазия, постоянно заекване, реч на глух или с увреден слух човек и силни акценти при втори език кривата на разпознаване рязко спада. Пуснахме четирите големи асистента срещу Apple Speech Accessibility Project и публичния набор за оценка Project Euphonia, оценихме честотата на грешки в думите и успеха на разпознаване на намерението и разнищихме какво всъщност ви дават функциите за персонализация на устройството.
1. Защо „средният“ глас се проваля при нетипична реч
Всеки търговски гласов асистент се доставя с акустичен модел, обучен върху реч, която екипът по данните е етикетирал като „чиста“. Чиста на практика означава: носещ или почти носещ език говорещ на един от дузина мнозинствени езици, артикулиращ с около 150 думи в минута, без постоянна недостатъчна плавност, без ритмичен тремор, без затруднена дихателна група и без крайна вариация на височината на гласа. Конвейерът за разпознаване — акустичен преден край, фонемен декодер, езиков модел, класификатор на намерението — е оптимизиран от край до край спрямо това разпределение. Когато реален потребител излезе извън него, всеки слой от конвейера го санкционира.
Това несъответствие не е хипотетично. Публикуваният набор за оценка Project Euphonia, пуснат от изследователския екип на Google през 2022 г. и разширен през 2024 г., съдържа записи от говорещи с амиотрофична латерална склероза (ALS), церебрална парализа, паркинсонова дизартрия, синдром на Даун и постинсултна афазия. Apple Speech Accessibility Project, стартиран през 2023 г. и понастоящем включващ приноси от над 2200 говорещи, добавя силно заекване, реч на глух и с увреден слух човек и няколко профила на акцент при втори език. И двата набора са балансирани по тежест на извадката и и двата разкриват колко крехки всъщност са производствените асистенти.
Двата режима на провал, които доминират, са заместване на дума и тихо отхвърляне. Заместването се случва, когато декодерът натрапва непозната фонемна последователност върху най-близката дума в речника — „пусни Coldplay“ става „пусни Coldspring“ и асистентът весело извлича грешната музика. Тихото отхвърляне се случва, когато детекторът на думата за събуждане или детекторът на края на речта решава, че изказването изобщо не е било насочено към устройството, и асистентът заспива обратно, без да потвърди, че е чул нещо. Първият режим на провал е проверим от отговора. Вторият е невидим — и доминира в оплакванията, които чуваме от потребителите с нетипична реч.
WER е историческата метрика за разпознаване на реч — разстоянието на редактиране между транскрипцията и истинния текст, разделено на дължината на референцията. Тя е полезна, но санкционира безобидните перифрази („пусни Beatles“ срещу „пусни the Beatles“) и прощава катастрофалните провали на намерението („пусни Beatles“, разпознато като „плати сметки“). Отчитаме WER наред с честота на успешно разпознаване на намерението, оценена спрямо реалното действие на асистента, а не спрямо транскрипцията му. И двете имат значение; само второто проследява резултатите за потребителя.
2. Сравнението: набори от данни, кохорти, метрики
Съставихме балансиран набор за оценка от 3420 изказвания чрез извадка от шест кохорти от прибл. 570 изказвания всяка от Apple Speech Accessibility Project и изданието за оценка на Project Euphonia. Кохортите: церебрална парализа с умерена до тежка дизартрия, ALS с прогресиращо булбарно засягане, постинсултна афазия (на Broca и глобална), постоянно развитийно заекване с над 10% сричкова недостатъчна плавност, реч на глух и с увреден слух човек, и силен акцент при втори език за носители на мандарински китайски, хинди и бразилски португалски, говорещи английски. Изказванията обхващат каноничния спектър от задачи за асистент: възпроизвеждане на медия, управление на умен дом, таймери и напомняния, навигационни заявки и кратки фактологически въпроси.
Всяко изказване беше възпроизведено от калибриран студиен монитор при 65 dBA SPL, на един метър от микрофона на устройството, в акустично третирана стая с време на реверберация под 0,3 секунди. Тествахме четири устройства в техния фърмуер от края на 2025 г.: Amazon Echo (5-о поколение) с Alexa, Google Nest Audio с Google Assistant, iPhone 17 Pro със Siri на iOS 19 и Samsung Galaxy S25 с Bixby 4. Всяко изказване беше подадено десет пъти на четирите устройства; отчитаме медианното изпълнение, с доверителни интервали, изведени от разпръскването.
За всеки опит регистрирахме две стойности. Първо, транскрипцията, която асистентът върна (или която можахме да възстановим от действието му — Bixby и Siri не винаги излагат транскрипции). Второ, дали изпълненото действие съответства на намерението на говорещия, преценено от панел от трима оценители спрямо писмен етикет на намерението, разпространен с изходния набор от данни. Честотата на грешки в думите е стандартната формула на NIST. Честотата на успешно разпознаване на намерението е делът от опитите, при които действието съответства на етикетираното намерение, закръглен до най-близкия цял процент.
3. Матрицата на разпознаване: асистент по говорно състояние
Всяка клетка отчита две числа: честота на грешки в думите (по-ниско е по-добре) и честота на успешно разпознаване на намерението (по-високо е по-добре), измерени с профила по подразбиране на асистента и без активирана персонализация на устройството. В следващия раздел ще разгледаме какво прави персонализацията.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Церебрална парализа · дизартрия | WER 54% · намерение 38% | WER 41% · намерение 49% | WER 47% · намерение 44% | WER 63% · намерение 27% |
| ALS · булбарно засягане | WER 61% · намерение 31% | WER 46% · намерение 44% | WER 52% · намерение 39% | WER 68% · намерение 22% |
| Постинсултна афазия | WER 49% · намерение 36% | WER 39% · намерение 47% | WER 44% · намерение 41% | WER 58% · намерение 28% |
| Постоянно заекване | WER 33% · намерение 51% | WER 24% · намерение 67% | WER 28% · намерение 61% | WER 42% · намерение 44% |
| Реч на глух / с увреден слух човек | WER 38% · намерение 47% | WER 29% · намерение 60% | WER 35% · намерение 53% | WER 47% · намерение 39% |
| Силен акцент при втори език (3 езика) | WER 22% · намерение 71% | WER 16% · намерение 79% | WER 19% · намерение 75% | WER 27% · намерение 64% |
| Базова линия: неврологически типичен носещ език | WER 6% · намерение 94% | WER 5% · намерение 95% | WER 5% · намерение 95% | WER 8% · намерение 90% |
Три наблюдения от матрицата. Първо, всеки асистент рязко деградира спрямо дизартричните кохорти — ALS, церебрална парализа и постинсултна афазия — като разпознаването на намерението пада под 50% по цялата линия. За потребител, който разчита на гласа като основна входна модалност, по-малко от една от всеки две работещи команди е неизползваемо; то връща потребителя към клавиатура или болногледач, което обезсмисля асистента. Второ, постоянното заекване и речта на глух човек заемат среден диапазон, в който само Google Assistant надхвърля 60% намерение при настройките по подразбиране; останалите изостават със 7 до 23 процентни пункта. Трето, силните акценти при втори език са единствената „нетипична“ категория, в която и четирите асистента са приблизително използваеми при настройките по подразбиране — макар че дори там 64-процентната честота на намерението на Bixby би била брутално потребителско изживяване ден след ден.
Колоната на Bixby е най-лошата по цялата линия, което съответства на по-тясното разпределение на обучение на Samsung и на отпадащия статус на Bixby в собствената продуктова пътна карта на Samsung. Колоната на Google Assistant води при всяка дизартрична кохорта, което е в съответствие с продължаващата инвестиция на Google в данни от Project Euphonia и неговия слой за извод на устройството Project Relate. Siri е в средата на полето при настройките по подразбиране, но, както показва следващият раздел, има най-значимия разрив между подразбиране и персонализация от четирите.
Всички числа по-горе са медиани от десет опитни изпълнения на изказване. 95-процентните доверителни интервали при дизартричните кохорти са широки — обикновено плюс или минус 5 до 8 процентни пункта — защото асистентите проявяват недетерминистично декодиране за двусмислени входни данни. Относителната подредба на четирите колони е стабилна при повторни изпълнения; абсолютните числа във всяка отделна клетка следва да се четат като моментна снимка, а не като константа.
4. Функции за персонализация, които движат числата
И четирите платформи вече предлагат поне една функция за персонализация, насочена към нетипична реч. Те се различават по разход за настройка, по това къде се изпълнява изводът и по това колко всъщност променят разпознаването. Пуснахме отново същите 3420 изказвания срещу всеки асистент след активиране на водещия режим на персонализация на всяка платформа, с регистрация на говорещ от приблизително 15 минути обучителна реч.
Персонализацията, която адаптира акустичния модел към говорещия — Listen for Atypical Speech на Siri, Project Relate — поражда двуцифрени подобрения в пунктове, които затварят по-голямата част от разрива до базовото неврологически типично разпознаване за същия говорещ. Персонализацията, която само запаметява фиксиран набор от обвързвания изказване-към-действие — потребителските фрази на Alexa — дава много по-малко подобрение в много по-малък речник. Архитектурата има по-голямо значение от маркетинговия текст.
5. Добри спрямо лоши модели за гласов интерфейс при нетипична реч
Платформите задават пода на разпознаване, но моделите за гласов интерфейс, които дизайнерите и разработчиците доставят върху тези платформи, задават тавана. Едно и също умение, едно и също Action, едно и също намерение на SiriKit може да бъде изградено по начини, които задълбочават провала на разпознаване, или по начини, които се възстановяват грациозно от него. Двойките по-долу открояват трите модела, при които виждаме най-големия разрив в производствения код.
Лошо: да искате от потребителя да повтори цялата команда при неуспешно разпознаване. „Съжалявам, не разбрах. Какво бихте искали да направите?“ принуждава потребителя с нетипична реч да преартикулира дълго изказване — точно случаят, при който системата току-що се е провалила — и не му дава опора, за да достигне разпозната фраза.
Добро: предложете две или три ограничени възможности след провал. „Съжалявам, искахте ли да пуснете музика, да настроите таймер или да проверите времето?“ дава на декодера много по-малък езиков модел като предпоставка за оценяване, което е точно режимът, в който разпознаването на нетипична реч се представя най-добре. Voice Access използва този модел; API за еднозначно определяне на SiriKit го дава възможен за намерения на трети страни.
Лошо: да разчитате на твърд праг от 1,5 секунди тишина, за да решите, че потребителят е приключил с говоренето. Говорещите с ALS и дизартрия редовно правят по-дълги паузи от това по средата на изказването за дишане или пренастройка на артикулаторите; асистентът ги прекъсва и обработва фрагмент.
Добро: изложете настройка за удължена пауза (Siri „Allow Siri to Pause“ по подразбиране на 5 секунди; „Speaking time“ на Google Assistant зададено на „Long“) и я направете откриваема от менюто за достъпност — не заровена под настройките за глас. Съчетайте я с видим индикатор за запис, така че говорещият да вижда, че все още има думата.
Лошо: да доставите единен праг за откриване на думата за събуждане, настроен да максимизира честотата на грешни отхвърляния при неврологически типични гласове. Говорещите с нетипична реч предизвикват далеч повече грешни отхвърляния от средния потребител — режимът на тихо отхвърляне — защото моделът на думата за събуждане на практика никога не е виждал гласа им по време на обучението.
Добро: доставете плъзгач за чувствителност на думата за събуждане за всеки потребител, който понижава прага на откриване за регистриран в профил говорещ с нетипична реч (Google Assistant нарича това „Hey Google sensitivity“; Alexa няма еквивалент на ниво потребител). Съчетайте с физическо или екранно средство „докосни, за да говориш“, така че думата за събуждане никога да не е единственият път навътре.
6. Какво следва да доставят дизайнерите и инженерите
Третирайте разпознаването с профил по подразбиране като под на най-лошия случай, а не като цел
Всеки тестов план следва да включва изпълнение с включена персонализация наред с изпълнението с профил по подразбиране. Ако вашето умение, Action или намерение на SiriKit работи само за потребители, които са се регистрирали в Project Relate или Listen for Atypical Speech, документирайте това в декларацията си за достъпност и изведете подканата за регистрация от вътре в приложението си.
Ограничете езиковия модел в моментите на двусмисленост
Подканите за еднозначно определяне, които предлагат две или три изрични възможности, възстановяват голям дял от разрива в WER при дизартричните кохорти, защото декодерът вече оценява спрямо мъничък краен речник вместо спрямо отворен. Използвайте платформените API за еднозначно определяне; не преоткривайте свободни повторни подкани.
Винаги съчетавайте гласа с негласов път за въвеждане
Всяка повърхност, управляема с глас — умен високоговорител, асистент в автомобила, мобилно приложение — се нуждае от негласов резервен вариант в рамките на същия поток. Физически бутон, цел за докосване, режим на въвеждане с писане. Гласът е една модалност сред много; проектирането, сякаш е единствената, е това, което кара потребителите с нетипична реч да изоставят продукта.
Настройте откриването на край на речта и го изведете в настройките за достъпност
Времетраенията на изчакване по подразбиране за край на речта са настроени за неврологически типични говорещи. Добавете обърната към потребителя опция за удължена пауза в настройките на вашето умение за асистента (платформите излагат куки; настройката Pause Time на Siri и настройката Speaking Time на Google са референциите). Изведете я от системното меню за достъпност, а не от заровен раздел за глас.
Тествайте спрямо публичните набори от данни — не само спрямо собствения си екип
Apple Speech Accessibility Project и наборът за оценка Project Euphonia са публично достъпни за квалифицирани изследователи и екипи по достъпност. Те обхващат кохортите, които вашият екип по осигуряване на качеството почти със сигурност не обхваща. Пускайте детектора си на думата за събуждане и класификатора си на намерението срещу балансирана подизвадка преди всяко издание; проследявайте WER и успеха на намерението по кохорта, а не само агрегирано число.
Заключение: достъпността на гласовия интерфейс е проблем на разпределението, маскиран като проблем на потребителското изживяване
Матрицата по-горе е отрезвяваща, но е и разчетима. Всяка клетка с честота на намерението под 50% съответства на разпознаваем пропуск в разпределението на обучение — твърде малко говорещи с дизартрия, твърде малко заекване, твърде малко реч на глух човек, твърде малко неносещи английски език говорещи от недостатъчно представени майчини езици. Поправките не са загадъчни: разширете набора от данни, изградете адаптивен към говорещия слой на персонализация, изложете еднозначно определяне с ограничен речник и доставете негласов резервен вариант на всяка повърхност.
От четирите асистента, които тествахме, стекът на Google — Assistant плюс Project Relate плюс Voice Access — движи най-много числа при най-много кохорти, защото Google е инвестирал най-последователно в данни за нетипична реч и в адаптация на устройството. Listen for Atypical Speech на Apple, въведен в iOS 17, затваря по-голямата част от разрива с много по-лек разход за настройка и изцяло работещ на устройството модел — силен аргумент за поверителността, който има значение за категория потребители, които може да се чувстват неудобно да излъчват образци от нетипичната си реч към облака. Alexa на Amazon изостава в архитектурата на персонализация; Bixby на Samsung изостава по цялата линия.
За дизайнерите изводът е, че асистентът, на който се озовават потребителите ви, ще определи половината от пода; моделите, които обвивате около него, ще определят останалото. Подканите за еднозначно определяне, настройките за удължена пауза, негласовите резервни варианти и потоците за регистрация, благоприятни за персонализация, са четирите интервенции, които движат най-много числа в нашите повторни изпълнения. Никоя от тях не изисква изследователски екип — само дизайн система, която третира нетипичната реч като пълноправен потребител, а не като граничен случай.
„Разривът в достъпността на гласовия интерфейс е предимно разрив в разпределението на обучение с тънък слой потребителско изживяване отгоре. Персонализацията затваря по-голямата част от разрива; негласовите резервни варианти затварят останалото.“