A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.
Image description: A smart speaker with its top light ring glowing and a hand reaching toward it — the visual marker for voice-UI accessibility testing with atypical speech.

Guía de ingeniería · Interfaces de voz para habla atípica

Accesibilidad de interfaces de voz: evaluación de Alexa, Google Assistant, Siri y Bixby para usuarios con discapacidades del habla

Pruebas comparativas de los cuatro principales asistentes de voz con datos del Speech Accessibility Project de Apple y Project Euphonia de Google — tasa de error de palabras y reconocimiento de intención por condición del habla, más las funciones de personalización que mueven los números.

Accesibilidad de interfaces de voz:
evaluación de Alexa, Google Assistant, Siri y Bixby para usuarios con discapacidades del habla

Los asistentes de voz se entrenan, evalúan y ajustan en función de un hablante «medio» — claro, neurotípico, con acento neutro. Para los usuarios con parálisis cerebral, ELA, afasia postapoplegia, tartamudez persistente, habla de personas sordas o con hipoacusia, y acentos fuertes en segunda lengua, la curva de reconocimiento cae en picado. Realizamos pruebas con los cuatro principales asistentes utilizando el Speech Accessibility Project de Apple y el conjunto de evaluación público de Project Euphonia, puntuamos la tasa de error de palabras y el éxito en el reconocimiento de intención, y analizamos en detalle qué aportan realmente las funciones de personalización disponibles en el dispositivo.

4
asistentes evaluados
6
cohortes de condiciones del habla
3.420
enunciados puntuados
13 min de lectura
Actualizado mayo de 2026

1. Por qué la voz «media» falla con el habla atípica

Todos los asistentes de voz comerciales se distribuyen con un modelo acústico entrenado sobre habla que el equipo de datos etiquetó como «limpia». Limpia significa, en la práctica, lo siguiente: un hablante nativo o casi nativo de uno de una docena de idiomas mayoritarios, articulando a aproximadamente 150 palabras por minuto, sin disfluencia consistente, sin temblor rítmico, sin pausas respiratorias prolongadas y sin una variación de tono extrema. El canal de reconocimiento — interfaz acústica, decodificador de fonemas, modelo de lenguaje, clasificador de intención — está optimizado de extremo a extremo frente a esa distribución. Cuando un usuario real queda fuera de ella, cada capa del canal lo penaliza.

Este desajuste no es hipotético. El conjunto de evaluación público de Project Euphonia, publicado por el equipo de investigación de Google en 2022 y ampliado en 2024, contiene grabaciones de hablantes con esclerosis lateral amiotrófica (ELA), parálisis cerebral, disartria parkinsoniana, síndrome de Down y afasia postapoplegia. El Speech Accessibility Project de Apple, lanzado en 2023 y que ahora incorpora contribuciones de más de 2.200 hablantes, añade tartamudez grave, habla de personas sordas o con hipoacusia y varios perfiles de acento en segunda lengua. Ambos conjuntos de datos están equilibrados por grado de severidad, y ambos ponen de manifiesto lo frágiles que son en realidad los asistentes en producción.

Los dos modos de fallo que predominan son la sustitución de palabras y el rechazo silencioso. La sustitución ocurre cuando el decodificador fuerza una secuencia de fonemas desconocida hacia la palabra más cercana del vocabulario — «pon Coldplay» se convierte en «pon Coldspring» y el asistente obtiene alegremente la música incorrecta. El rechazo silencioso ocurre cuando el detector de palabra de activación o el detector de fin de locución decide que el enunciado no iba dirigido al dispositivo y el asistente vuelve a estado de espera sin confirmar que ha escuchado nada. El primer modo de fallo es auditable a partir de la respuesta. El segundo es invisible — y domina las quejas que recibimos de los usuarios con habla atípica.

La tasa de error de palabras es necesaria pero no suficiente

La TEP (tasa de error de palabras) es la métrica histórica del reconocimiento del habla — la distancia de edición entre la transcripción y la verdad de referencia, dividida por la longitud de la referencia. Es útil, pero penaliza las paráfrasis inofensivas («pon a los Beatles» frente a «pon Beatles») y perdona los fallos catastróficos de intención («pon Beatles» reconocido como «paga facturas»). Reportamos la TEP junto con una tasa de éxito en el reconocimiento de intención, puntuada según la acción real del asistente, no su transcripción. Ambas importan; solo la segunda refleja los resultados para el usuario.


2. El benchmark: conjuntos de datos, cohortes y métricas

Elaboramos un conjunto de evaluación equilibrado de 3.420 enunciados muestreando seis cohortes de aprox. 570 enunciados cada una a partir del Speech Accessibility Project de Apple y la publicación del conjunto de evaluación de Project Euphonia. Las cohortes: parálisis cerebral con disartria moderada a grave, ELA con afectación bulbar progresiva, afasia postapoplegia (de Broca y global), tartamudez del desarrollo persistente con más del 10 % de disfluencia silábica, habla de personas sordas o con hipoacusia, y acento fuerte en segunda lengua para hablantes de inglés nativos de mandarín, hindi y portugués brasileño. Los enunciados abarcan el espectro canónico de tareas de asistente: reproducción de medios, control del hogar inteligente, temporizadores y recordatorios, consultas de navegación y preguntas breves de tipo factual.

Cada enunciado se reprodujo desde un monitor de estudio calibrado a 65 dBA SPL, a un metro del micrófono del dispositivo, en una sala con tratamiento acústico y un tiempo de reverberación inferior a 0,3 segundos. Se evaluaron cuatro dispositivos en su estado de firmware de finales de 2025: un Amazon Echo (5.ª generación) con Alexa, un Google Nest Audio con Google Assistant, un iPhone 17 Pro con Siri en iOS 19 y un Samsung Galaxy S25 con Bixby 4. Cada enunciado se emitió diez veces en los cuatro dispositivos; se reporta la mediana de las ejecuciones, con intervalos de confianza derivados de la dispersión.

Para cada prueba se registraron dos valores. En primer lugar, la transcripción que devolvió el asistente (o que pudimos reconstruir a partir de su acción — Bixby y Siri no siempre exponen transcripciones). En segundo lugar, si la acción ejecutada coincidía con la intención del hablante, juzgado por un panel de tres evaluadores a partir de una etiqueta de intención escrita distribuida con el conjunto de datos de origen. La tasa de error de palabras sigue la fórmula estándar del NIST. La tasa de éxito en el reconocimiento de intención es la fracción de pruebas en las que la acción coincidió con la intención etiquetada, redondeada al porcentaje entero más cercano.

3.420
enunciados puntuados por cohortes
6
cohortes de condiciones del habla
4
asistentes comerciales evaluados
10
pruebas por enunciado, mediana reportada

3. La matriz de reconocimiento: asistente por condición del habla

Cada celda reporta dos cifras: tasa de error de palabras (menor es mejor) y tasa de éxito en el reconocimiento de intención (mayor es mejor), medidas con el perfil predeterminado del asistente y sin ninguna personalización habilitada en el dispositivo. En la sección siguiente analizaremos qué aporta la personalización.

Alexa (Echo 5)Google Assistant (Nest)Siri (iOS 19)Bixby 4 (S25)
Parálisis cerebral · disartriaTEP 54 % · intención 38 %TEP 41 % · intención 49 %TEP 47 % · intención 44 %TEP 63 % · intención 27 %
ELA · afectación bulbarTEP 61 % · intención 31 %TEP 46 % · intención 44 %TEP 52 % · intención 39 %TEP 68 % · intención 22 %
Afasia postapoplegiaTEP 49 % · intención 36 %TEP 39 % · intención 47 %TEP 44 % · intención 41 %TEP 58 % · intención 28 %
Tartamudez persistenteTEP 33 % · intención 51 %TEP 24 % · intención 67 %TEP 28 % · intención 61 %TEP 42 % · intención 44 %
Habla sorda / con hipoacusiaTEP 38 % · intención 47 %TEP 29 % · intención 60 %TEP 35 % · intención 53 %TEP 47 % · intención 39 %
Acento fuerte en L2 (3 idiomas)TEP 22 % · intención 71 %TEP 16 % · intención 79 %TEP 19 % · intención 75 %TEP 27 % · intención 64 %
Referencia: L1 neurotípicoTEP 6 % · intención 94 %TEP 5 % · intención 95 %TEP 5 % · intención 95 %TEP 8 % · intención 90 %

Tres observaciones a partir de la matriz. En primer lugar, todos los asistentes se degradan notablemente en las cohortes disártricas — ELA, parálisis cerebral y afasia postapoplegia — con el reconocimiento de intención por debajo del 50 % en todos los casos. Para un usuario que depende de la voz como modalidad de entrada principal, que menos de uno de cada dos comandos funcione es inutilizable; obliga al usuario a volver al teclado o a un cuidador, lo que anula el propósito del asistente. En segundo lugar, la tartamudez persistente y el habla sorda se sitúan en una banda intermedia donde solo Google Assistant supera el 60 % de intención con la configuración predeterminada; los demás se quedan entre 7 y 23 puntos porcentuales por detrás. En tercer lugar, los acentos fuertes en segunda lengua son la única categoría «atípica» en la que los cuatro asistentes son más o menos utilizables con la configuración predeterminada — aunque incluso en ese caso, la tasa de intención del 64 % de Bixby sería una experiencia de usuario durísima día tras día.

La columna de Bixby es la peor en todos los casos, lo cual concuerda con la distribución de entrenamiento más reducida de Samsung y el estatus obsoleto de Bixby en la propia hoja de ruta de productos de Samsung. La columna de Google Assistant lidera en todas las cohortes disártricas, lo que es coherente con la inversión continua de Google en datos de Project Euphonia y su capa de inferencia en el dispositivo de Project Relate. Siri se sitúa en la mitad del campo con los valores predeterminados, pero, como muestra la sección siguiente, tiene la mayor brecha entre el valor predeterminado y el personalizado de los cuatro.

Confianza y reproducibilidad

Todas las cifras anteriores son medianas de diez ejecuciones de prueba por enunciado. Los intervalos de confianza al 95 % en las cohortes disártricas son amplios — típicamente más menos 5 a 8 puntos porcentuales — porque los asistentes exhiben decodificación no determinista para las entradas ambiguas. El orden relativo de las cuatro columnas es estable entre ejecuciones; las cifras absolutas de cualquier celda deben leerse como una instantánea, no como una constante.


4. Funciones de personalización que marcan la diferencia

Las cuatro plataformas incluyen ahora al menos una función de personalización orientada al habla atípica. Difieren en el coste de configuración, en dónde se ejecuta la inferencia y en cuánto cambian realmente el reconocimiento. Se volvieron a ejecutar los mismos 3.420 enunciados con cada asistente después de habilitar el modo de personalización insignia de cada plataforma, con un registro por hablante de aproximadamente 15 minutos de habla de entrenamiento.

Siri · Escucha para habla atípica
iOS 17+ · modelo adaptativo al hablante en el dispositivo
Incluido en iOS 17, mejorado en iOS 18 y 19
Dónde se ejecutaCompletamente en el dispositivo — el audio no sale del iPhone ni del HomePod vinculado
Coste de configuraciónInterruptor en Accesibilidad → Siri; no se requieren frases de registro, el modelo se adapta con el uso
Mejora medidaEl reconocimiento de intención mejoró entre 11 y 19 puntos en las cohortes disártricas tras aprox. 4 semanas de uso diario
Project Relate · Android
Google · aplicación independiente, se conecta a Assistant a través de Voice Access
Beta pública desde 2022, disponible de forma general en 2024
Dónde se ejecutaHíbrido — transcripción en el dispositivo, entrenamiento de personalización en la nube
Coste de configuraciónAprox. 500 frases de registro, alrededor de 30 a 60 minutos de grabación
Mejora medidaEl reconocimiento de intención mejoró entre 16 y 24 puntos en las cohortes disártricas; las mayores ganancias fueron para hablantes con ELA
Voice Access · entrada de sistema Android
Google · alternativa a Assistant para intenciones de control
Incluido en Android desde Android 12, mejorado en Android 16
Dónde se ejecutaEn el dispositivo para el vocabulario de comandos; usa el modelo de Relate si está disponible
Coste de configuraciónNinguno para el vocabulario predeterminado; se empareja automáticamente con Relate si está instalado
Mejora medidaEl éxito por comando mejoró entre 12 y 18 puntos; el vocabulario restringido es el que más se beneficia
Alexa · Subtítulos de llamadas y frases personalizadas
Amazon · personalización parcial, sin modelo adaptativo completo al hablante
Disponible en hardware Echo Show y Echo (5.ª generación)
Dónde se ejecutaInferencia solo en la nube; las funciones en el dispositivo se limitan a la palabra de activación
Coste de configuraciónSin adaptación al hablante; los usuarios pueden registrar aprox. 25 enlaces personalizados de enunciado a rutina
Mejora medidaEl reconocimiento de intención para las 25 frases registradas se acercó al 85 %; todo lo demás permanece sin cambios
El patrón subyacente a las cifras

La personalización que adapta el modelo acústico al hablante — Escucha para habla atípica de Siri, Project Relate — produce mejoras de dos dígitos en puntos que cierran la mayor parte de la brecha respecto al reconocimiento neurotypical de referencia para el mismo hablante. La personalización que solo memoriza un conjunto fijo de enlaces enunciado-acción — las frases personalizadas de Alexa — ofrece una mejora mucho menor sobre un vocabulario mucho más reducido. La arquitectura importa más que el texto de marketing.


5. Patrones de interfaz de voz correctos e incorrectos para habla atípica

Las plataformas establecen el suelo del reconocimiento, pero los patrones de interfaz de voz que los diseñadores y desarrolladores construyen sobre esas plataformas establecen el techo. El mismo skill, la misma Action, la misma intención de SiriKit pueden construirse de formas que agraven el fallo de reconocimiento o de formas que se recuperen con elegancia de él. Los pares siguientes destacan los tres patrones donde observamos la mayor brecha en el código en producción.

Indicaciones de confirmación · qué no hacer

Incorrecto: pedir al usuario que repita el comando completo ante un fallo de reconocimiento. «Lo siento, no le entendí. ¿Qué desea hacer?» obliga a un usuario con habla atípica a rearticlar un enunciado largo — exactamente el caso en el que el sistema acaba de fallar — sin ofrecerle ningún punto de apoyo para aterrizar en una frase reconocida.

Indicaciones de confirmación · qué hacer

Correcto: ofrecer dos o tres opciones acotadas tras un fallo. «Lo siento, ¿quería poner música, configurar un temporizador o consultar el tiempo?» da al decodificador un prior de modelo de lenguaje mucho más pequeño contra el que puntuar, que es exactamente el régimen en el que el reconocimiento de habla atípica funciona mejor. Voice Access utiliza este patrón; la API de desambiguación de SiriKit lo habilita para intenciones de terceros.

Detección de fin de locución · qué no hacer

Incorrecto: confiar en un umbral de silencio fijo de 1,5 segundos para decidir que el usuario ha terminado de hablar. Los hablantes con ELA y disartria hacen regularmente pausas más largas en medio de un enunciado para respirar o reiniciar el articulador; el asistente los interrumpe y procesa un fragmento.

Detección de fin de locución · qué hacer

Correcto: ofrecer una opción de pausa extendida (el «Permitir que Siri haga una pausa» de Siri, fijado en 5 segundos de forma predeterminada; el «Tiempo de habla» de Google Assistant, configurado en «Largo») y hacerla accesible desde el menú de accesibilidad — no enterrada en los ajustes de Voz. Complementarla con un indicador de grabación visible para que el hablante pueda ver que sigue teniendo la palabra.

Sensibilidad a la palabra de activación · qué no hacer

Incorrecto: distribuir un umbral único de detección de la palabra de activación ajustado para maximizar la tasa de rechazo falso en voces neurotípicas. Los hablantes con habla atípica generan muchos más rechazos falsos que el usuario medio — el modo de fallo de rechazo silencioso — porque el modelo de palabra de activación nunca ha visto efectivamente su voz durante el entrenamiento.

Sensibilidad a la palabra de activación · qué hacer

Correcto: incluir un control deslizante de sensibilidad de la palabra de activación por usuario que reduzca el umbral de detección para un hablante con habla atípica registrado en un perfil (Google Assistant lo denomina «Sensibilidad de Hey Google»; Alexa no tiene equivalente a nivel de usuario). Complementarlo con un botón físico o en pantalla para activar por toque, de modo que la palabra de activación nunca sea el único camino de acceso.


6. Lo que los diseñadores e ingenieros deberían implementar

1

Considerar el reconocimiento con perfil predeterminado como el peor caso de referencia, no como objetivo

Todo plan de pruebas debería incluir una ejecución con personalización activada junto a la ejecución con perfil predeterminado. Si el skill, la Action o la intención de SiriKit solo funcionan para usuarios que se han registrado en Project Relate o en Escucha para habla atípica, documéntelo en su declaración de accesibilidad y muestre la indicación de registro desde dentro de la aplicación.

2

Restringir el modelo de lenguaje en los momentos de ambigüedad

Las indicaciones de desambiguación que ofrecen dos o tres opciones explícitas recuperan una gran fracción de la brecha de TEP en las cohortes disártricas, porque el decodificador puntúa ahora frente a un vocabulario finito muy reducido en lugar de uno abierto. Utilice las API de desambiguación de la plataforma; no reinvente las reindicaciones de forma libre.

3

Vincular siempre la voz con un canal de entrada no vocal

Toda superficie controlable por voz — altavoz inteligente, asistente de vehículo, aplicación móvil — necesita una alternativa no vocal dentro del mismo flujo. Un botón físico, un objetivo táctil, un modo de entrada por texto. La voz es una modalidad entre muchas; diseñar como si fuera la única es lo que lleva a los usuarios con habla atípica a abandonar el producto.

4

Ajustar la detección de fin de locución y exponerla en los ajustes de accesibilidad

Los tiempos de espera predeterminados de fin de locución están ajustados para hablantes neurotípicos. Añada una opción de pausa extendida visible al usuario en los ajustes del skill del asistente (las plataformas exponen ganchos; los ajustes de Tiempo de pausa de Siri y Tiempo de habla de Google son las referencias). Expóngala desde el menú de Accesibilidad del sistema, no desde una pestaña de Voz enterrada.

5

Realizar pruebas con los conjuntos de datos públicos, no solo con el equipo propio

El Speech Accessibility Project de Apple y el conjunto de evaluación de Project Euphonia están disponibles públicamente para investigadores e equipos de accesibilidad que reúnan los requisitos. Cubren las cohortes que el equipo de control de calidad casi con toda seguridad no tiene. Ejecute su clasificador de palabra de activación e intención frente a un subconjunto equilibrado antes de cada publicación; haga el seguimiento de la TEP y el éxito de intención por cohorte, no solo de una cifra agregada.


Conclusión: la accesibilidad de las interfaces de voz es un problema de distribución disfrazado de problema de UX

La matriz anterior es desalentadora, pero también es legible. Cada celda con una tasa de intención inferior al 50 % mapea hacia una brecha reconocible en la distribución de entrenamiento — demasiado pocos hablantes disártricos, demasiada poca tartamudez, demasiado poco habla sorda, demasiado pocos hablantes no nativos de inglés de contextos L1 infrarrepresentados. Las soluciones no son misteriosas: ampliar el conjunto de datos, construir una capa de personalización adaptativa al hablante, exponer una desambiguación de vocabulario restringido y distribuir una alternativa no vocal en cada superficie.

De los cuatro asistentes evaluados, el ecosistema de Google — Assistant más Project Relate más Voice Access — mueve las cifras más en la mayoría de las cohortes, porque Google ha invertido de manera más consistente en datos de habla atípica y en adaptación en el dispositivo. Escucha para habla atípica de Apple, introducida en iOS 17, cierra la mayor parte de la brecha con un coste de configuración mucho menor y un modelo completamente en el dispositivo — una sólida garantía de privacidad que importa para una categoría de usuarios que puede sentirse incómoda enviando muestras de su habla atípica a la nube. El Alexa de Amazon se queda atrás en la arquitectura de personalización; el Bixby de Samsung se queda atrás en todos los frentes.

Para los diseñadores, la conclusión es que el asistente en el que aterrizan sus usuarios determinará la mitad del suelo; los patrones que se construyan alrededor determinarán el resto. Las indicaciones de desambiguación, los ajustes de pausa extendida, las alternativas no vocales y los flujos de registro favorables a la personalización son las cuatro intervenciones que más cifras mueven en las reejecuciones. Ninguna requiere un equipo de investigación — solo un sistema de diseño que trate el habla atípica como un usuario de primera categoría, y no como un caso límite.

«La brecha de accesibilidad en las interfaces de voz es principalmente una brecha de distribución de entrenamiento con una fina capa de UX encima. La personalización cierra la mayor parte de la brecha; las alternativas no vocales cierran el resto.»

— Equipo de ingeniería de Disability World, mayo de 2026