Control por voz — glosario de accesibilidad

El control por voz es la categoría de tecnología de apoyo que permite a los usuarios operar un ordenador mediante comandos hablados. Los principales sistemas son Dragon NaturallySpeaking (Windows, el líder histórico del mercado), Voice Control de macOS y Voice Control de iOS (integrado de forma nativa en Apple, gratuito con el sistema operativo), Windows Speech Recognition (integrado de Microsoft) y Google Voice Access (Android).

El control por voz sirve a usuarios con discapacidades motoras que dificultan o imposibilitan el uso del teclado, el ratón o la pantalla táctil — RSI, artritis, temblor, parálisis a distintos niveles. También se utiliza ampliamente en contextos de productividad (abogados y personal clínico dictando notas) donde el usuario no tiene ninguna discapacidad documentada pero se beneficia de la operación sin manos.

Cómo el control por voz interpreta los comandos

Un sistema de control por voz escucha dos tipos de comandos:

Dictado — el usuario habla texto para introducirlo en un campo enfocado. El sistema transcribe el habla.
Comandos — el usuario nombra una acción o un control. El sistema compara la frase hablada con un registro de comandos disponibles y nombres accesibles de los controles en pantalla.

El segundo tipo es donde se cruza la accesibilidad web: cuando el usuario dice «Clic en Enviar», el software de control por voz busca un elemento con el nombre accesible «Enviar» (o una coincidencia aproximada) y despacha un evento de clic sobre él. Si el botón Enviar no tiene nombre accesible — porque es un <button> sin etiqueta, o un <div> personalizado, o un botón con etiqueta de solo icono — el usuario de control por voz no puede operarlo.

Qué implica esto para los equipos de desarrollo web

La regla de accesibilidad más importante para el control por voz es:

Todo elemento interactivo debe tener un nombre accesible basado en texto que coincida con su etiqueta visible.

En la práctica:

Los botones necesitan texto visible. <button>Enviar</button> funciona. Los botones de solo icono necesitan aria-label que coincida con lo que el usuario probablemente dirá — aria-label="Buscar" en lugar de aria-label="Lupa".
La etiqueta visible y el nombre accesible deben coincidir. Si el texto visible de un botón es «Enviar» pero su aria-label es «Enviar formulario», el control por voz puede no encontrarlo cuando el usuario diga «Clic en Enviar». El criterio WCAG 2.5.3 Etiqueta en el nombre (Nivel A) exige que el nombre accesible contenga el texto de la etiqueta visible.
Los controles personalizados exponen su rol y nombre. Un <div role="button" aria-label="Enviar"> funciona. Un <div onclick> sin rol ni nombre, no.
Sin controles fantasma. Las superposiciones de control por voz (superposiciones numeradas que muestran cada elemento enfocable con un número para identificarlo) funcionan mejor cuando el número de elementos enfocables es manejable. Los elementos ocultos pero aun así enfocables saturan la superposición.

Dónde el control por voz se superpone con la accesibilidad para lectores de pantalla

La misma disciplina de nombre accesible y HTML semántico que hace un sitio accesible para lectores de pantalla también lo hace accesible para el control por voz. Ambas tecnologías operan a través del árbol de accesibilidad y dependen de que los nombres accesibles estén presentes y sean correctos.

La excepción principal: el control por voz no necesita regiones live de ARIA (no es un lector de pantalla), pero sí necesita superposiciones numeradas para exponer controles sin etiquetas de texto, razón por la que las etiquetas de texto son desproporcionadamente importantes para los usuarios que utilizan la voz.

Qué falla específicamente con el control por voz

Etiquetas de solo icono visibles. Un botón de corazón (favorito) sin texto visible. El usuario dice «Clic en favorito», pero el nombre accesible es «Guardar» o está ausente. Desajuste.
Dos controles con el mismo nombre accesible. Dos enlaces «Leer más» en la página. El usuario dice «Clic en Leer más»; el sistema de control por voz muestra una superposición de desambiguación numerada. No está roto, solo es lento.
Etiquetas localizadas desajustadas. Se habla en español, pero la página está en inglés. El control por voz del usuario necesita reconocer el idioma correcto para el nombre del elemento. Configurar lang correctamente en el HTML ayuda.

La auditoría manual más rápida: activar Voice Control de macOS o Windows Speech Recognition e intentar usar el sitio solo con la voz. Los controles inactivables se hacen evidentes en menos de cinco minutos.