Достъпност на гласовия интерфейс:
тестване на Alexa, Google Assistant, Siri и Bixby за потребители с говорни увреждания

Гласовите асистенти се обучават, оценяват и настройват спрямо „среден“ говорещ — ясен, неврологически типичен, с лек акцент. За потребителите с церебрална парализа, ALS, постинсултна афазия, постоянно заекване, реч на глух или с увреден слух човек и силни акценти при втори език кривата на разпознаване рязко спада. Пуснахме четирите големи асистента срещу Apple Speech Accessibility Project и публичния набор за оценка Project Euphonia, оценихме честотата на грешки в думите и успеха на разпознаване на намерението и разнищихме какво всъщност ви дават функциите за персонализация на устройството.

сравнени асистента

кохорти по говорно състояние

3420

оценени изказвания

От инженерния отдел на Disability World

13 мин. четене

Актуализирано май 2026 г.

Основа

1. Защо „средният“ глас се проваля при нетипична реч

Всеки търговски гласов асистент се доставя с акустичен модел, обучен върху реч, която екипът по данните е етикетирал като „чиста“. Чиста на практика означава: носещ или почти носещ език говорещ на един от дузина мнозинствени езици, артикулиращ с около 150 думи в минута, без постоянна недостатъчна плавност, без ритмичен тремор, без затруднена дихателна група и без крайна вариация на височината на гласа. Конвейерът за разпознаване — акустичен преден край, фонемен декодер, езиков модел, класификатор на намерението — е оптимизиран от край до край спрямо това разпределение. Когато реален потребител излезе извън него, всеки слой от конвейера го санкционира.

Това несъответствие не е хипотетично. Публикуваният набор за оценка Project Euphonia, пуснат от изследователския екип на Google през 2022 г. и разширен през 2024 г., съдържа записи от говорещи с амиотрофична латерална склероза (ALS), церебрална парализа, паркинсонова дизартрия, синдром на Даун и постинсултна афазия. Apple Speech Accessibility Project, стартиран през 2023 г. и понастоящем включващ приноси от над 2200 говорещи, добавя силно заекване, реч на глух и с увреден слух човек и няколко профила на акцент при втори език. И двата набора са балансирани по тежест на извадката и и двата разкриват колко крехки всъщност са производствените асистенти.

Двата режима на провал, които доминират, са заместване на дума и тихо отхвърляне. Заместването се случва, когато декодерът натрапва непозната фонемна последователност върху най-близката дума в речника — „пусни Coldplay“ става „пусни Coldspring“ и асистентът весело извлича грешната музика. Тихото отхвърляне се случва, когато детекторът на думата за събуждане или детекторът на края на речта решава, че изказването изобщо не е било насочено към устройството, и асистентът заспива обратно, без да потвърди, че е чул нещо. Първият режим на провал е проверим от отговора. Вторият е невидим — и доминира в оплакванията, които чуваме от потребителите с нетипична реч.

Честотата на грешки в думите е необходима, но не и достатъчна

WER е историческата метрика за разпознаване на реч — разстоянието на редактиране между транскрипцията и истинния текст, разделено на дължината на референцията. Тя е полезна, но санкционира безобидните перифрази („пусни Beatles“ срещу „пусни the Beatles“) и прощава катастрофалните провали на намерението („пусни Beatles“, разпознато като „плати сметки“). Отчитаме WER наред с честота на успешно разпознаване на намерението, оценена спрямо реалното действие на асистента, а не спрямо транскрипцията му. И двете имат значение; само второто проследява резултатите за потребителя.

Метод

2. Сравнението: набори от данни, кохорти, метрики

Съставихме балансиран набор за оценка от 3420 изказвания чрез извадка от шест кохорти от прибл. 570 изказвания всяка от Apple Speech Accessibility Project и изданието за оценка на Project Euphonia. Кохортите: церебрална парализа с умерена до тежка дизартрия, ALS с прогресиращо булбарно засягане, постинсултна афазия (на Broca и глобална), постоянно развитийно заекване с над 10% сричкова недостатъчна плавност, реч на глух и с увреден слух човек, и силен акцент при втори език за носители на мандарински китайски, хинди и бразилски португалски, говорещи английски. Изказванията обхващат каноничния спектър от задачи за асистент: възпроизвеждане на медия, управление на умен дом, таймери и напомняния, навигационни заявки и кратки фактологически въпроси.

Всяко изказване беше възпроизведено от калибриран студиен монитор при 65 dBA SPL, на един метър от микрофона на устройството, в акустично третирана стая с време на реверберация под 0,3 секунди. Тествахме четири устройства в техния фърмуер от края на 2025 г.: Amazon Echo (5-о поколение) с Alexa, Google Nest Audio с Google Assistant, iPhone 17 Pro със Siri на iOS 19 и Samsung Galaxy S25 с Bixby 4. Всяко изказване беше подадено десет пъти на четирите устройства; отчитаме медианното изпълнение, с доверителни интервали, изведени от разпръскването.

За всеки опит регистрирахме две стойности. Първо, транскрипцията, която асистентът върна (или която можахме да възстановим от действието му — Bixby и Siri не винаги излагат транскрипции). Второ, дали изпълненото действие съответства на намерението на говорещия, преценено от панел от трима оценители спрямо писмен етикет на намерението, разпространен с изходния набор от данни. Честотата на грешки в думите е стандартната формула на NIST. Честотата на успешно разпознаване на намерението е делът от опитите, при които действието съответства на етикетираното намерение, закръглен до най-близкия цял процент.

3420

изказвания, оценени в кохортите

кохорти по говорно състояние

тествани търговски асистента

опита на изказване, отчита се медианата

Справка

3. Матрицата на разпознаване: асистент по говорно състояние

Всяка клетка отчита две числа: честота на грешки в думите (по-ниско е по-добре) и честота на успешно разпознаване на намерението (по-високо е по-добре), измерени с профила по подразбиране на асистента и без активирана персонализация на устройството. В следващия раздел ще разгледаме какво прави персонализацията.

	Alexa (Echo 5)	Google Assistant (Nest)	Siri (iOS 19)	Bixby 4 (S25)
Церебрална парализа · дизартрия	WER 54% · намерение 38%	WER 41% · намерение 49%	WER 47% · намерение 44%	WER 63% · намерение 27%
ALS · булбарно засягане	WER 61% · намерение 31%	WER 46% · намерение 44%	WER 52% · намерение 39%	WER 68% · намерение 22%
Постинсултна афазия	WER 49% · намерение 36%	WER 39% · намерение 47%	WER 44% · намерение 41%	WER 58% · намерение 28%
Постоянно заекване	WER 33% · намерение 51%	WER 24% · намерение 67%	WER 28% · намерение 61%	WER 42% · намерение 44%
Реч на глух / с увреден слух човек	WER 38% · намерение 47%	WER 29% · намерение 60%	WER 35% · намерение 53%	WER 47% · намерение 39%
Силен акцент при втори език (3 езика)	WER 22% · намерение 71%	WER 16% · намерение 79%	WER 19% · намерение 75%	WER 27% · намерение 64%
Базова линия: неврологически типичен носещ език	WER 6% · намерение 94%	WER 5% · намерение 95%	WER 5% · намерение 95%	WER 8% · намерение 90%

Три наблюдения от матрицата. Първо, всеки асистент рязко деградира спрямо дизартричните кохорти — ALS, церебрална парализа и постинсултна афазия — като разпознаването на намерението пада под 50% по цялата линия. За потребител, който разчита на гласа като основна входна модалност, по-малко от една от всеки две работещи команди е неизползваемо; то връща потребителя към клавиатура или болногледач, което обезсмисля асистента. Второ, постоянното заекване и речта на глух човек заемат среден диапазон, в който само Google Assistant надхвърля 60% намерение при настройките по подразбиране; останалите изостават със 7 до 23 процентни пункта. Трето, силните акценти при втори език са единствената „нетипична“ категория, в която и четирите асистента са приблизително използваеми при настройките по подразбиране — макар че дори там 64-процентната честота на намерението на Bixby би била брутално потребителско изживяване ден след ден.

Колоната на Bixby е най-лошата по цялата линия, което съответства на по-тясното разпределение на обучение на Samsung и на отпадащия статус на Bixby в собствената продуктова пътна карта на Samsung. Колоната на Google Assistant води при всяка дизартрична кохорта, което е в съответствие с продължаващата инвестиция на Google в данни от Project Euphonia и неговия слой за извод на устройството Project Relate. Siri е в средата на полето при настройките по подразбиране, но, както показва следващият раздел, има най-значимия разрив между подразбиране и персонализация от четирите.

Доверителност и възпроизводимост

Всички числа по-горе са медиани от десет опитни изпълнения на изказване. 95-процентните доверителни интервали при дизартричните кохорти са широки — обикновено плюс или минус 5 до 8 процентни пункта — защото асистентите проявяват недетерминистично декодиране за двусмислени входни данни. Относителната подредба на четирите колони е стабилна при повторни изпълнения; абсолютните числа във всяка отделна клетка следва да се четат като моментна снимка, а не като константа.

Картина

4. Функции за персонализация, които движат числата

И четирите платформи вече предлагат поне една функция за персонализация, насочена към нетипична реч. Те се различават по разход за настройка, по това къде се изпълнява изводът и по това колко всъщност променят разпознаването. Пуснахме отново същите 3420 изказвания срещу всеки асистент след активиране на водещия режим на персонализация на всяка платформа, с регистрация на говорещ от приблизително 15 минути обучителна реч.

Доставен в iOS 17, усъвършенстван в iOS 18 и 19

Къде се изпълняваИзцяло на устройството — никакво аудио не напуска iPhone или сдвоения с него HomePod

Разход за настройкаПревключвател в Accessibility → Siri; не се изискват фрази за регистрация, моделът се адаптира от употребата

Измерено подобрениеРазпознаването на намерението се подобри с 11 до 19 пункта при дизартричните кохорти след прибл. 4 седмици ежедневна употреба

Публична бета от 2022 г., общодостъпен от 2024 г.

Къде се изпълняваХибридно — транскрипция на устройството, облачно обучение за персонализация

Разход за настройкаПрибл. 500 фрази за регистрация, около 30 до 60 минути запис

Измерено подобрениеРазпознаването на намерението се подобри с 16 до 24 пункта при дизартричните кохорти; най-големи печалби за говорещите с ALS

Доставя се с Android от Android 12, усъвършенстван в Android 16

Къде се изпълняваНа устройството за командния речник; използва модела Relate, ако е наличен

Разход за настройкаНяма за речника по подразбиране; автоматично сдвоен с Relate, ако Relate е инсталиран

Измерено подобрениеУспехът на команда нараства с 12 до 18 пункта; ограниченият речник помага най-много

Налично на хардуера Echo Show и Echo (5-о поколение)

Къде се изпълняваСамо облачен извод; функциите на устройството са ограничени до думата за събуждане

Разход за настройкаБез адаптация към говорещия; потребителите могат да запишат прибл. 25 потребителски обвързвания изказване-към-рутина

Измерено подобрениеРазпознаването на намерението за 25-те регистрирани фрази достигна 85%; всичко останало непроменено

Моделът под числата

Персонализацията, която адаптира акустичния модел към говорещия — Listen for Atypical Speech на Siri, Project Relate — поражда двуцифрени подобрения в пунктове, които затварят по-голямата част от разрива до базовото неврологически типично разпознаване за същия говорещ. Персонализацията, която само запаметява фиксиран набор от обвързвания изказване-към-действие — потребителските фрази на Alexa — дава много по-малко подобрение в много по-малък речник. Архитектурата има по-голямо значение от маркетинговия текст.

Код

5. Добри спрямо лоши модели за гласов интерфейс при нетипична реч

Платформите задават пода на разпознаване, но моделите за гласов интерфейс, които дизайнерите и разработчиците доставят върху тези платформи, задават тавана. Едно и също умение, едно и също Action, едно и също намерение на SiriKit може да бъде изградено по начини, които задълбочават провала на разпознаване, или по начини, които се възстановяват грациозно от него. Двойките по-долу открояват трите модела, при които виждаме най-големия разрив в производствения код.

Подкани за потвърждение · недейте

Лошо: да искате от потребителя да повтори цялата команда при неуспешно разпознаване. „Съжалявам, не разбрах. Какво бихте искали да направите?“ принуждава потребителя с нетипична реч да преартикулира дълго изказване — точно случаят, при който системата току-що се е провалила — и не му дава опора, за да достигне разпозната фраза.

Подкани за потвърждение · направете

Добро: предложете две или три ограничени възможности след провал. „Съжалявам, искахте ли да пуснете музика, да настроите таймер или да проверите времето?“ дава на декодера много по-малък езиков модел като предпоставка за оценяване, което е точно режимът, в който разпознаването на нетипична реч се представя най-добре. Voice Access използва този модел; API за еднозначно определяне на SiriKit го дава възможен за намерения на трети страни.

Откриване на край на речта · недейте

Лошо: да разчитате на твърд праг от 1,5 секунди тишина, за да решите, че потребителят е приключил с говоренето. Говорещите с ALS и дизартрия редовно правят по-дълги паузи от това по средата на изказването за дишане или пренастройка на артикулаторите; асистентът ги прекъсва и обработва фрагмент.

Откриване на край на речта · направете

Добро: изложете настройка за удължена пауза (Siri „Allow Siri to Pause“ по подразбиране на 5 секунди; „Speaking time“ на Google Assistant зададено на „Long“) и я направете откриваема от менюто за достъпност — не заровена под настройките за глас. Съчетайте я с видим индикатор за запис, така че говорещият да вижда, че все още има думата.

Чувствителност на думата за събуждане · недейте

Лошо: да доставите единен праг за откриване на думата за събуждане, настроен да максимизира честотата на грешни отхвърляния при неврологически типични гласове. Говорещите с нетипична реч предизвикват далеч повече грешни отхвърляния от средния потребител — режимът на тихо отхвърляне — защото моделът на думата за събуждане на практика никога не е виждал гласа им по време на обучението.

Чувствителност на думата за събуждане · направете

Добро: доставете плъзгач за чувствителност на думата за събуждане за всеки потребител, който понижава прага на откриване за регистриран в профил говорещ с нетипична реч (Google Assistant нарича това „Hey Google sensitivity“; Alexa няма еквивалент на ниво потребител). Съчетайте с физическо или екранно средство „докосни, за да говориш“, така че думата за събуждане никога да не е единственият път навътре.

Наръчник за действие

6. Какво следва да доставят дизайнерите и инженерите

Третирайте разпознаването с профил по подразбиране като под на най-лошия случай, а не като цел

Всеки тестов план следва да включва изпълнение с включена персонализация наред с изпълнението с профил по подразбиране. Ако вашето умение, Action или намерение на SiriKit работи само за потребители, които са се регистрирали в Project Relate или Listen for Atypical Speech, документирайте това в декларацията си за достъпност и изведете подканата за регистрация от вътре в приложението си.

Ограничете езиковия модел в моментите на двусмисленост

Подканите за еднозначно определяне, които предлагат две или три изрични възможности, възстановяват голям дял от разрива в WER при дизартричните кохорти, защото декодерът вече оценява спрямо мъничък краен речник вместо спрямо отворен. Използвайте платформените API за еднозначно определяне; не преоткривайте свободни повторни подкани.

Винаги съчетавайте гласа с негласов път за въвеждане

Всяка повърхност, управляема с глас — умен високоговорител, асистент в автомобила, мобилно приложение — се нуждае от негласов резервен вариант в рамките на същия поток. Физически бутон, цел за докосване, режим на въвеждане с писане. Гласът е една модалност сред много; проектирането, сякаш е единствената, е това, което кара потребителите с нетипична реч да изоставят продукта.

Настройте откриването на край на речта и го изведете в настройките за достъпност

Времетраенията на изчакване по подразбиране за край на речта са настроени за неврологически типични говорещи. Добавете обърната към потребителя опция за удължена пауза в настройките на вашето умение за асистента (платформите излагат куки; настройката Pause Time на Siri и настройката Speaking Time на Google са референциите). Изведете я от системното меню за достъпност, а не от заровен раздел за глас.

Тествайте спрямо публичните набори от данни — не само спрямо собствения си екип

Apple Speech Accessibility Project и наборът за оценка Project Euphonia са публично достъпни за квалифицирани изследователи и екипи по достъпност. Те обхващат кохортите, които вашият екип по осигуряване на качеството почти със сигурност не обхваща. Пускайте детектора си на думата за събуждане и класификатора си на намерението срещу балансирана подизвадка преди всяко издание; проследявайте WER и успеха на намерението по кохорта, а не само агрегирано число.

Заключение: достъпността на гласовия интерфейс е проблем на разпределението, маскиран като проблем на потребителското изживяване

Матрицата по-горе е отрезвяваща, но е и разчетима. Всяка клетка с честота на намерението под 50% съответства на разпознаваем пропуск в разпределението на обучение — твърде малко говорещи с дизартрия, твърде малко заекване, твърде малко реч на глух човек, твърде малко неносещи английски език говорещи от недостатъчно представени майчини езици. Поправките не са загадъчни: разширете набора от данни, изградете адаптивен към говорещия слой на персонализация, изложете еднозначно определяне с ограничен речник и доставете негласов резервен вариант на всяка повърхност.

От четирите асистента, които тествахме, стекът на Google — Assistant плюс Project Relate плюс Voice Access — движи най-много числа при най-много кохорти, защото Google е инвестирал най-последователно в данни за нетипична реч и в адаптация на устройството. Listen for Atypical Speech на Apple, въведен в iOS 17, затваря по-голямата част от разрива с много по-лек разход за настройка и изцяло работещ на устройството модел — силен аргумент за поверителността, който има значение за категория потребители, които може да се чувстват неудобно да излъчват образци от нетипичната си реч към облака. Alexa на Amazon изостава в архитектурата на персонализация; Bixby на Samsung изостава по цялата линия.

За дизайнерите изводът е, че асистентът, на който се озовават потребителите ви, ще определи половината от пода; моделите, които обвивате около него, ще определят останалото. Подканите за еднозначно определяне, настройките за удължена пауза, негласовите резервни варианти и потоците за регистрация, благоприятни за персонализация, са четирите интервенции, които движат най-много числа в нашите повторни изпълнения. Никоя от тях не изисква изследователски екип — само дизайн система, която третира нетипичната реч като пълноправен потребител, а не като граничен случай.

„Разривът в достъпността на гласовия интерфейс е предимно разрив в разпределението на обучение с тънък слой потребителско изживяване отгоре. Персонализацията затваря по-голямата част от разрива; негласовите резервни варианти затварят останалото.“

— инженерен отдел на Disability World, май 2026 г.

Достъпност на гласовия интерфейс: тестване на Alexa, Google Assistant, Siri и Bixby за потребители с говорни увреждания