Гласово управление — речник за достъпност

Гласовото управление е класът помощна технология, позволяващ на потребителите да управляват компютър чрез говорни команди. Основните системи са Dragon NaturallySpeaking (Windows, дългогодишен лидер на пазара), macOS Voice Control и iOS Voice Control (вградени в Apple, безплатни с операционната система), Windows Speech Recognition (вграденото решение на Microsoft) и Google Voice Access (Android).

Гласовото управление обслужва потребители с двигателни увреждания, при които използването на клавиатура, мишка или сензорен екран е затруднено или невъзможно — RSI, артрит, тремор, парализа на различни нива. То се използва широко и в контексти на работна ефективност (юристи и клиницисти, диктуващи бележки), при които потребителят няма документирано увреждане, но се възползва от работата без ръце.

Как гласовото управление интерпретира командите

Системата за гласово управление разпознава два вида команди:

Диктовка — потребителят произнася текст, който да бъде въведен в активното поле. Системата транскрибира речта.
Команди — потребителят назовава действие или контрола. Системата съпоставя произнесената фраза с регистъра от налични команди и достъпни имена на елементи на екрана.

Вторият вид е пресечната точка с уеб достъпността: когато потребителят каже „Click Submit”, софтуерът за гласово управление търси елемент с достъпното име „Submit” (или близко съвпадение) и изпраща събитие за кликване към него. Ако бутонът „Submit” няма достъпно име — защото е немаркиран <button>, или е персонализиран <div>, или е бутон само с иконичен надпис — потребителят на гласово управление не може да го активира.

Какво означава това за уеб разработчиците

Най-важното правило за достъпност при гласово управление:

Всеки интерактивен елемент трябва да има текстово достъпно име, съответстващо на видимия му надпис.

На практика:

Бутоните трябва да имат видим текст. <button>Submit</button> работи. Бутоните само с икона се нуждаят от aria-label, съответстващ на вероятно произнасяното от потребителя — aria-label="Search", а не aria-label="Magnifying glass".
Видимият надпис и достъпното име трябва да съвпадат. Ако видимият текст на бутон е „Submit”, но aria-label е „Send form”, гласовото управление може да не го открие при команда „Click Submit”. WCAG 2.5.3 „Надпис в името” (Ниво A) изисква достъпното име да съдържа текста на видимия надпис.
Персонализираните контроли излагат своята роля и название. <div role="button" aria-label="Submit"> работи. <div onclick> без роля или название — не.
Без скрити контроли. Наслагванията за гласово управление (номерирани наслагвания, показващи всеки фокусируем елемент с номер за извикване) работят по-добре, когато броят на фокусируемите елементи е управляем. Скритите, но все още фокусируеми елементи претрупват наслагването.

Пресечни точки между гласовото управление и достъпността за екранни четци

Същата дисциплина за достъпни имена и семантичен HTML, която прави даден сайт достъпен за екранни четци, го прави достъпен и за гласово управление. И двете технологии работят чрез дървото на достъпността и разчитат на наличието и коректността на достъпните имена.

Основното изключение: гласовото управление не се нуждае от ARIA динамични региони (то не е екранен четец), но се нуждае от номерирани наслагвания, за да излага контроли без текстови надписи — именно затова текстовите надписи са непропорционално важни за потребителите на гласово управление.

Специфичните проблеми при гласово управление

Видими надписи само с икона. Бутон с иконка за сърце (любими) без видим текст. Потребителят казва „Click favourite”, но достъпното име е „Save” или напълно липсва. Несъответствие.
Две контроли с едно и също достъпно име. Две препратки „Прочетете повече” на страницата. Потребителят казва „Click Read more”; системата за гласово управление показва номерирано наслагване за еднозначно идентифициране. Не е грешка, но е бавно.
Несъответстващи локализирани надписи. Произнесено на английски, но страницата е на друг език. Гласовото управление на потребителя трябва да разпознае правилния език за името на елемента. Правилното задаване на атрибута lang на HTML помага.

Най-бързият ръчен одит: включва се macOS Voice Control или Windows Speech Recognition и се опитва да се ползва сайтът само с глас. Неактивируемите контроли стават очевидни в рамките на пет минути.