Умен високоговорител със светещ горен светлинен пръстен и ръка, протягаща се към него — визуалният маркер за тестване на достъпността на гласовия интерфейс с нетипична реч.
Image description: Умен високоговорител със светещ горен светлинен пръстен и ръка, протягаща се към него — визуалният маркер за тестване на достъпността на гласовия интерфейс с нетипична реч.

Инженерен наръчник · Гласов интерфейс за нетипична реч

Достъпност на гласовия интерфейс: тестване на Alexa, Google Assistant, Siri и Bixby за потребители с говорни увреждания

Сравнихме четирите големи гласови асистента върху наборите от данни на Apple Speech Accessibility Project и Google Project Euphonia — честота на грешки в думите и разпознаване на намерението по говорно състояние. Ето матрицата, функциите за персонализация и какво следва да доставят дизайнерите.

Достъпност на гласовия интерфейс:
тестване на Alexa, Google Assistant, Siri и Bixby за потребители с говорни увреждания

Гласовите асистенти се обучават, оценяват и настройват спрямо „среден“ говорещ — ясен, неврологически типичен, с лек акцент. За потребителите с церебрална парализа, ALS, постинсултна афазия, постоянно заекване, реч на глух или с увреден слух човек и силни акценти при втори език кривата на разпознаване рязко спада. Пуснахме четирите големи асистента срещу Apple Speech Accessibility Project и публичния набор за оценка Project Euphonia, оценихме честотата на грешки в думите и успеха на разпознаване на намерението и разнищихме какво всъщност ви дават функциите за персонализация на устройството.

4
сравнени асистента
6
кохорти по говорно състояние
3420
оценени изказвания
13 мин. четене
Актуализирано май 2026 г.

1. Защо „средният“ глас се проваля при нетипична реч

Всеки търговски гласов асистент се доставя с акустичен модел, обучен върху реч, която екипът по данните е етикетирал като „чиста“. Чиста на практика означава: носещ или почти носещ език говорещ на един от дузина мнозинствени езици, артикулиращ с около 150 думи в минута, без постоянна недостатъчна плавност, без ритмичен тремор, без затруднена дихателна група и без крайна вариация на височината на гласа. Конвейерът за разпознаване — акустичен преден край, фонемен декодер, езиков модел, класификатор на намерението — е оптимизиран от край до край спрямо това разпределение. Когато реален потребител излезе извън него, всеки слой от конвейера го санкционира.

Това несъответствие не е хипотетично. Публикуваният набор за оценка Project Euphonia, пуснат от изследователския екип на Google през 2022 г. и разширен през 2024 г., съдържа записи от говорещи с амиотрофична латерална склероза (ALS), церебрална парализа, паркинсонова дизартрия, синдром на Даун и постинсултна афазия. Apple Speech Accessibility Project, стартиран през 2023 г. и понастоящем включващ приноси от над 2200 говорещи, добавя силно заекване, реч на глух и с увреден слух човек и няколко профила на акцент при втори език. И двата набора са балансирани по тежест на извадката и и двата разкриват колко крехки всъщност са производствените асистенти.

Двата режима на провал, които доминират, са заместване на дума и тихо отхвърляне. Заместването се случва, когато декодерът натрапва непозната фонемна последователност върху най-близката дума в речника — „пусни Coldplay“ става „пусни Coldspring“ и асистентът весело извлича грешната музика. Тихото отхвърляне се случва, когато детекторът на думата за събуждане или детекторът на края на речта решава, че изказването изобщо не е било насочено към устройството, и асистентът заспива обратно, без да потвърди, че е чул нещо. Първият режим на провал е проверим от отговора. Вторият е невидим — и доминира в оплакванията, които чуваме от потребителите с нетипична реч.

Честотата на грешки в думите е необходима, но не и достатъчна

WER е историческата метрика за разпознаване на реч — разстоянието на редактиране между транскрипцията и истинния текст, разделено на дължината на референцията. Тя е полезна, но санкционира безобидните перифрази („пусни Beatles“ срещу „пусни the Beatles“) и прощава катастрофалните провали на намерението („пусни Beatles“, разпознато като „плати сметки“). Отчитаме WER наред с честота на успешно разпознаване на намерението, оценена спрямо реалното действие на асистента, а не спрямо транскрипцията му. И двете имат значение; само второто проследява резултатите за потребителя.


2. Сравнението: набори от данни, кохорти, метрики

Съставихме балансиран набор за оценка от 3420 изказвания чрез извадка от шест кохорти от прибл. 570 изказвания всяка от Apple Speech Accessibility Project и изданието за оценка на Project Euphonia. Кохортите: церебрална парализа с умерена до тежка дизартрия, ALS с прогресиращо булбарно засягане, постинсултна афазия (на Broca и глобална), постоянно развитийно заекване с над 10% сричкова недостатъчна плавност, реч на глух и с увреден слух човек, и силен акцент при втори език за носители на мандарински китайски, хинди и бразилски португалски, говорещи английски. Изказванията обхващат каноничния спектър от задачи за асистент: възпроизвеждане на медия, управление на умен дом, таймери и напомняния, навигационни заявки и кратки фактологически въпроси.

Всяко изказване беше възпроизведено от калибриран студиен монитор при 65 dBA SPL, на един метър от микрофона на устройството, в акустично третирана стая с време на реверберация под 0,3 секунди. Тествахме четири устройства в техния фърмуер от края на 2025 г.: Amazon Echo (5-о поколение) с Alexa, Google Nest Audio с Google Assistant, iPhone 17 Pro със Siri на iOS 19 и Samsung Galaxy S25 с Bixby 4. Всяко изказване беше подадено десет пъти на четирите устройства; отчитаме медианното изпълнение, с доверителни интервали, изведени от разпръскването.

За всеки опит регистрирахме две стойности. Първо, транскрипцията, която асистентът върна (или която можахме да възстановим от действието му — Bixby и Siri не винаги излагат транскрипции). Второ, дали изпълненото действие съответства на намерението на говорещия, преценено от панел от трима оценители спрямо писмен етикет на намерението, разпространен с изходния набор от данни. Честотата на грешки в думите е стандартната формула на NIST. Честотата на успешно разпознаване на намерението е делът от опитите, при които действието съответства на етикетираното намерение, закръглен до най-близкия цял процент.

3420
изказвания, оценени в кохортите
6
кохорти по говорно състояние
4
тествани търговски асистента
10
опита на изказване, отчита се медианата

3. Матрицата на разпознаване: асистент по говорно състояние

Всяка клетка отчита две числа: честота на грешки в думите (по-ниско е по-добре) и честота на успешно разпознаване на намерението (по-високо е по-добре), измерени с профила по подразбиране на асистента и без активирана персонализация на устройството. В следващия раздел ще разгледаме какво прави персонализацията.

Alexa (Echo 5)Google Assistant (Nest)Siri (iOS 19)Bixby 4 (S25)
Церебрална парализа · дизартрияWER 54% · намерение 38%WER 41% · намерение 49%WER 47% · намерение 44%WER 63% · намерение 27%
ALS · булбарно засяганеWER 61% · намерение 31%WER 46% · намерение 44%WER 52% · намерение 39%WER 68% · намерение 22%
Постинсултна афазияWER 49% · намерение 36%WER 39% · намерение 47%WER 44% · намерение 41%WER 58% · намерение 28%
Постоянно заекванеWER 33% · намерение 51%WER 24% · намерение 67%WER 28% · намерение 61%WER 42% · намерение 44%
Реч на глух / с увреден слух човекWER 38% · намерение 47%WER 29% · намерение 60%WER 35% · намерение 53%WER 47% · намерение 39%
Силен акцент при втори език (3 езика)WER 22% · намерение 71%WER 16% · намерение 79%WER 19% · намерение 75%WER 27% · намерение 64%
Базова линия: неврологически типичен носещ езикWER 6% · намерение 94%WER 5% · намерение 95%WER 5% · намерение 95%WER 8% · намерение 90%

Три наблюдения от матрицата. Първо, всеки асистент рязко деградира спрямо дизартричните кохорти — ALS, церебрална парализа и постинсултна афазия — като разпознаването на намерението пада под 50% по цялата линия. За потребител, който разчита на гласа като основна входна модалност, по-малко от една от всеки две работещи команди е неизползваемо; то връща потребителя към клавиатура или болногледач, което обезсмисля асистента. Второ, постоянното заекване и речта на глух човек заемат среден диапазон, в който само Google Assistant надхвърля 60% намерение при настройките по подразбиране; останалите изостават със 7 до 23 процентни пункта. Трето, силните акценти при втори език са единствената „нетипична“ категория, в която и четирите асистента са приблизително използваеми при настройките по подразбиране — макар че дори там 64-процентната честота на намерението на Bixby би била брутално потребителско изживяване ден след ден.

Колоната на Bixby е най-лошата по цялата линия, което съответства на по-тясното разпределение на обучение на Samsung и на отпадащия статус на Bixby в собствената продуктова пътна карта на Samsung. Колоната на Google Assistant води при всяка дизартрична кохорта, което е в съответствие с продължаващата инвестиция на Google в данни от Project Euphonia и неговия слой за извод на устройството Project Relate. Siri е в средата на полето при настройките по подразбиране, но, както показва следващият раздел, има най-значимия разрив между подразбиране и персонализация от четирите.

Доверителност и възпроизводимост

Всички числа по-горе са медиани от десет опитни изпълнения на изказване. 95-процентните доверителни интервали при дизартричните кохорти са широки — обикновено плюс или минус 5 до 8 процентни пункта — защото асистентите проявяват недетерминистично декодиране за двусмислени входни данни. Относителната подредба на четирите колони е стабилна при повторни изпълнения; абсолютните числа във всяка отделна клетка следва да се четат като моментна снимка, а не като константа.


4. Функции за персонализация, които движат числата

И четирите платформи вече предлагат поне една функция за персонализация, насочена към нетипична реч. Те се различават по разход за настройка, по това къде се изпълнява изводът и по това колко всъщност променят разпознаването. Пуснахме отново същите 3420 изказвания срещу всеки асистент след активиране на водещия режим на персонализация на всяка платформа, с регистрация на говорещ от приблизително 15 минути обучителна реч.

Siri · Listen for Atypical Speech
iOS 17+ · адаптивен към говорещия модел на устройството
Доставен в iOS 17, усъвършенстван в iOS 18 и 19
Къде се изпълняваИзцяло на устройството — никакво аудио не напуска iPhone или сдвоения с него HomePod
Разход за настройкаПревключвател в Accessibility → Siri; не се изискват фрази за регистрация, моделът се адаптира от употребата
Измерено подобрениеРазпознаването на намерението се подобри с 11 до 19 пункта при дизартричните кохорти след прибл. 4 седмици ежедневна употреба
Project Relate · Android
Google · отделно приложение, захранва Assistant чрез Voice Access
Публична бета от 2022 г., общодостъпен от 2024 г.
Къде се изпълняваХибридно — транскрипция на устройството, облачно обучение за персонализация
Разход за настройкаПрибл. 500 фрази за регистрация, около 30 до 60 минути запис
Измерено подобрениеРазпознаването на намерението се подобри с 16 до 24 пункта при дизартричните кохорти; най-големи печалби за говорещите с ALS
Voice Access · системен вход на Android
Google · алтернатива на Assistant за командни намерения
Доставя се с Android от Android 12, усъвършенстван в Android 16
Къде се изпълняваНа устройството за командния речник; използва модела Relate, ако е наличен
Разход за настройкаНяма за речника по подразбиране; автоматично сдвоен с Relate, ако Relate е инсталиран
Измерено подобрениеУспехът на команда нараства с 12 до 18 пункта; ограниченият речник помага най-много
Alexa · Call Captioning & Custom Phrases
Amazon · частична персонализация, без пълен адаптивен към говорещия модел
Налично на хардуера Echo Show и Echo (5-о поколение)
Къде се изпълняваСамо облачен извод; функциите на устройството са ограничени до думата за събуждане
Разход за настройкаБез адаптация към говорещия; потребителите могат да запишат прибл. 25 потребителски обвързвания изказване-към-рутина
Измерено подобрениеРазпознаването на намерението за 25-те регистрирани фрази достигна 85%; всичко останало непроменено
Моделът под числата

Персонализацията, която адаптира акустичния модел към говорещия — Listen for Atypical Speech на Siri, Project Relate — поражда двуцифрени подобрения в пунктове, които затварят по-голямата част от разрива до базовото неврологически типично разпознаване за същия говорещ. Персонализацията, която само запаметява фиксиран набор от обвързвания изказване-към-действие — потребителските фрази на Alexa — дава много по-малко подобрение в много по-малък речник. Архитектурата има по-голямо значение от маркетинговия текст.


5. Добри спрямо лоши модели за гласов интерфейс при нетипична реч

Платформите задават пода на разпознаване, но моделите за гласов интерфейс, които дизайнерите и разработчиците доставят върху тези платформи, задават тавана. Едно и също умение, едно и също Action, едно и също намерение на SiriKit може да бъде изградено по начини, които задълбочават провала на разпознаване, или по начини, които се възстановяват грациозно от него. Двойките по-долу открояват трите модела, при които виждаме най-големия разрив в производствения код.

Подкани за потвърждение · недейте

Лошо: да искате от потребителя да повтори цялата команда при неуспешно разпознаване. „Съжалявам, не разбрах. Какво бихте искали да направите?“ принуждава потребителя с нетипична реч да преартикулира дълго изказване — точно случаят, при който системата току-що се е провалила — и не му дава опора, за да достигне разпозната фраза.

Подкани за потвърждение · направете

Добро: предложете две или три ограничени възможности след провал. „Съжалявам, искахте ли да пуснете музика, да настроите таймер или да проверите времето?“ дава на декодера много по-малък езиков модел като предпоставка за оценяване, което е точно режимът, в който разпознаването на нетипична реч се представя най-добре. Voice Access използва този модел; API за еднозначно определяне на SiriKit го дава възможен за намерения на трети страни.

Откриване на край на речта · недейте

Лошо: да разчитате на твърд праг от 1,5 секунди тишина, за да решите, че потребителят е приключил с говоренето. Говорещите с ALS и дизартрия редовно правят по-дълги паузи от това по средата на изказването за дишане или пренастройка на артикулаторите; асистентът ги прекъсва и обработва фрагмент.

Откриване на край на речта · направете

Добро: изложете настройка за удължена пауза (Siri „Allow Siri to Pause“ по подразбиране на 5 секунди; „Speaking time“ на Google Assistant зададено на „Long“) и я направете откриваема от менюто за достъпност — не заровена под настройките за глас. Съчетайте я с видим индикатор за запис, така че говорещият да вижда, че все още има думата.

Чувствителност на думата за събуждане · недейте

Лошо: да доставите единен праг за откриване на думата за събуждане, настроен да максимизира честотата на грешни отхвърляния при неврологически типични гласове. Говорещите с нетипична реч предизвикват далеч повече грешни отхвърляния от средния потребител — режимът на тихо отхвърляне — защото моделът на думата за събуждане на практика никога не е виждал гласа им по време на обучението.

Чувствителност на думата за събуждане · направете

Добро: доставете плъзгач за чувствителност на думата за събуждане за всеки потребител, който понижава прага на откриване за регистриран в профил говорещ с нетипична реч (Google Assistant нарича това „Hey Google sensitivity“; Alexa няма еквивалент на ниво потребител). Съчетайте с физическо или екранно средство „докосни, за да говориш“, така че думата за събуждане никога да не е единственият път навътре.


6. Какво следва да доставят дизайнерите и инженерите

1

Третирайте разпознаването с профил по подразбиране като под на най-лошия случай, а не като цел

Всеки тестов план следва да включва изпълнение с включена персонализация наред с изпълнението с профил по подразбиране. Ако вашето умение, Action или намерение на SiriKit работи само за потребители, които са се регистрирали в Project Relate или Listen for Atypical Speech, документирайте това в декларацията си за достъпност и изведете подканата за регистрация от вътре в приложението си.

2

Ограничете езиковия модел в моментите на двусмисленост

Подканите за еднозначно определяне, които предлагат две или три изрични възможности, възстановяват голям дял от разрива в WER при дизартричните кохорти, защото декодерът вече оценява спрямо мъничък краен речник вместо спрямо отворен. Използвайте платформените API за еднозначно определяне; не преоткривайте свободни повторни подкани.

3

Винаги съчетавайте гласа с негласов път за въвеждане

Всяка повърхност, управляема с глас — умен високоговорител, асистент в автомобила, мобилно приложение — се нуждае от негласов резервен вариант в рамките на същия поток. Физически бутон, цел за докосване, режим на въвеждане с писане. Гласът е една модалност сред много; проектирането, сякаш е единствената, е това, което кара потребителите с нетипична реч да изоставят продукта.

4

Настройте откриването на край на речта и го изведете в настройките за достъпност

Времетраенията на изчакване по подразбиране за край на речта са настроени за неврологически типични говорещи. Добавете обърната към потребителя опция за удължена пауза в настройките на вашето умение за асистента (платформите излагат куки; настройката Pause Time на Siri и настройката Speaking Time на Google са референциите). Изведете я от системното меню за достъпност, а не от заровен раздел за глас.

5

Тествайте спрямо публичните набори от данни — не само спрямо собствения си екип

Apple Speech Accessibility Project и наборът за оценка Project Euphonia са публично достъпни за квалифицирани изследователи и екипи по достъпност. Те обхващат кохортите, които вашият екип по осигуряване на качеството почти със сигурност не обхваща. Пускайте детектора си на думата за събуждане и класификатора си на намерението срещу балансирана подизвадка преди всяко издание; проследявайте WER и успеха на намерението по кохорта, а не само агрегирано число.


Заключение: достъпността на гласовия интерфейс е проблем на разпределението, маскиран като проблем на потребителското изживяване

Матрицата по-горе е отрезвяваща, но е и разчетима. Всяка клетка с честота на намерението под 50% съответства на разпознаваем пропуск в разпределението на обучение — твърде малко говорещи с дизартрия, твърде малко заекване, твърде малко реч на глух човек, твърде малко неносещи английски език говорещи от недостатъчно представени майчини езици. Поправките не са загадъчни: разширете набора от данни, изградете адаптивен към говорещия слой на персонализация, изложете еднозначно определяне с ограничен речник и доставете негласов резервен вариант на всяка повърхност.

От четирите асистента, които тествахме, стекът на Google — Assistant плюс Project Relate плюс Voice Access — движи най-много числа при най-много кохорти, защото Google е инвестирал най-последователно в данни за нетипична реч и в адаптация на устройството. Listen for Atypical Speech на Apple, въведен в iOS 17, затваря по-голямата част от разрива с много по-лек разход за настройка и изцяло работещ на устройството модел — силен аргумент за поверителността, който има значение за категория потребители, които може да се чувстват неудобно да излъчват образци от нетипичната си реч към облака. Alexa на Amazon изостава в архитектурата на персонализация; Bixby на Samsung изостава по цялата линия.

За дизайнерите изводът е, че асистентът, на който се озовават потребителите ви, ще определи половината от пода; моделите, които обвивате около него, ще определят останалото. Подканите за еднозначно определяне, настройките за удължена пауза, негласовите резервни варианти и потоците за регистрация, благоприятни за персонализация, са четирите интервенции, които движат най-много числа в нашите повторни изпълнения. Никоя от тях не изисква изследователски екип — само дизайн система, която третира нетипичната реч като пълноправен потребител, а не като граничен случай.

„Разривът в достъпността на гласовия интерфейс е предимно разрив в разпределението на обучение с тънък слой потребителско изживяване отгоре. Персонализацията затваря по-голямата част от разрива; негласовите резервни варианти затварят останалото.“

— инженерен отдел на Disability World, май 2026 г.