Accessibilité des interfaces vocales :
test d’Alexa, Google Assistant, Siri et Bixby pour les utilisateurs avec des troubles de la parole
Les assistants vocaux sont entraînés, évalués et ajustés sur un locuteur « moyen » — clair, neurotypique, avec peu d’accent. Pour les utilisateurs atteints de paralysie cérébrale, de SLA, d’aphasie post-AVC, de bégaiement persistant, de parole sourde ou malentendante, et d’accents en langue seconde marqués, la courbe de reconnaissance s’effondre brutalement. Nous avons soumis les quatre principaux assistants aux évaluations du Speech Accessibility Project d’Apple et du jeu d’évaluation public du Project Euphonia, mesuré le taux d’erreur de mots et le taux de succès de reconnaissance d’intention, et analysé ce qu’apportent réellement les fonctions de personnalisation embarquées.
1. Pourquoi la voix « moyenne » échoue face à la parole atypique
Chaque assistant vocal commercial est fourni avec un modèle acoustique entraîné sur une parole que l’équipe de données a qualifiée de « propre ». « Propre » signifie en pratique : un locuteur natif ou quasi-natif de l’une d’une douzaine de langues majoritaires, s’exprimant à environ 150 mots par minute, sans disfluence persistante, sans tremor rythmique, sans groupe respiratoire laborieux et sans variance extrême de hauteur. Le pipeline de reconnaissance — front-end acoustique, décodeur de phonèmes, modèle de langue, classifieur d’intention — est optimisé de bout en bout par rapport à cette distribution. Lorsqu’un utilisateur réel s’en écarte, chaque couche du pipeline le pénalise.
Ce décalage n’est pas hypothétique. Le jeu d’évaluation public du Project Euphonia, publié par l’équipe de recherche de Google en 2022 et étendu en 2024, contient des enregistrements de locuteurs atteints de sclérose latérale amyotrophique (SLA), de paralysie cérébrale, de dysarthrie parkinsonienne, de trisomie 21 et d’aphasie post-AVC. Le Speech Accessibility Project d’Apple, lancé en 2023 et intégrant désormais les contributions de plus de 2 200 locuteurs, ajoute le bégaiement sévère, la parole sourde et malentendante, et plusieurs profils d’accent en langue seconde. Les deux jeux de données sont équilibrés en termes de sévérité, et les deux révèlent à quel point les assistants en production sont fragiles.
Les deux modes d’échec dominants sont la substitution de mots et le rejet silencieux. La substitution survient quand le décodeur force une séquence de phonèmes inconnue sur le mot du vocabulaire le plus proche — « joue du Coldplay » devient « joue du Coldspring », et l’assistant récupère joyeusement la mauvaise musique. Le rejet silencieux survient quand le détecteur de mot d’activation ou le détecteur de fin d’énoncé décide que l’énoncé ne s’adressait pas à l’appareil, et l’assistant se rendort sans confirmer avoir entendu quoi que ce soit. Le premier mode d’échec est auditable à partir de la réponse. Le second est invisible — et domine les plaintes que nous recueillons auprès des utilisateurs à parole atypique.
Le TEM (taux d’erreur de mots) est la métrique historique de la reconnaissance vocale — la distance d’édition entre le transcript et la référence, divisée par la longueur de référence. Il est utile, mais pénalise les paraphrases inoffensives (« joue les Beatles » vs « joue Beatles ») et pardonne les échecs d’intention catastrophiques (« joue Beatles » reconnu comme « paye les factures »). Nous reportons le TEM conjointement à un taux de succès de reconnaissance d’intention, évalué sur l’action réelle de l’assistant, et non sur son transcript. Les deux comptent ; seul le second suit les résultats pour l’utilisateur.
2. Le benchmark : jeux de données, cohortes, métriques
Nous avons constitué un jeu d’évaluation équilibré de 3 420 énoncés en échantillonnant six cohortes d’environ 570 énoncés chacune à partir du Speech Accessibility Project d’Apple et de la version d’évaluation du Project Euphonia. Les cohortes : paralysie cérébrale avec dysarthrie modérée à sévère, SLA avec atteinte bulbaire progressive, aphasie post-AVC (de Broca et globale), bégaiement développemental persistant avec plus de 10 % de disfluences syllabiques, parole sourde et malentendante, et accent marqué en langue seconde pour des locuteurs natifs en mandarin, hindi et portugais brésilien s’exprimant en anglais. Les énoncés couvrent le spectre canonique des tâches des assistants : lecture multimédia, contrôle de la maison connectée, minuteries et rappels, requêtes de navigation et courtes questions factuelles.
Chaque énoncé a été diffusé depuis un moniteur studio étalonné à 65 dBA SPL, à un mètre du microphone de l’appareil, dans une pièce traitée acoustiquement avec un temps de réverbération inférieur à 0,3 seconde. Nous avons testé quatre appareils dans leur état de firmware fin 2025 : un Amazon Echo (5e génération) fonctionnant avec Alexa, un Google Nest Audio fonctionnant avec Google Assistant, un iPhone 17 Pro fonctionnant avec Siri sous iOS 19, et un Samsung Galaxy S25 fonctionnant avec Bixby 4. Chaque énoncé a été émis dix fois sur les quatre appareils ; nous reportons la valeur médiane avec les intervalles de confiance dérivés de la dispersion.
Pour chaque essai, nous avons enregistré deux valeurs. Premièrement, le transcript que l’assistant a renvoyé (ou que nous avons pu reconstituer à partir de son action — Bixby et Siri n’exposent pas toujours les transcripts). Deuxièmement, si l’action exécutée correspondait à l’intention du locuteur, jugée par un panel de trois évaluateurs sur la base d’une étiquette d’intention écrite distribuée avec le jeu de données source. Le taux d’erreur de mots suit la formule NIST standard. Le taux de succès de reconnaissance d’intention est la fraction des essais où l’action correspondait à l’intention étiquetée, arrondie au pourcentage entier le plus proche.
3. La matrice de reconnaissance : assistant par profil de trouble
Chaque cellule indique deux chiffres : le taux d’erreur de mots (plus bas = meilleur) et le taux de succès de reconnaissance d’intention (plus haut = meilleur), mesurés avec le profil par défaut de l’assistant et sans personnalisation embarquée activée. Nous verrons ce qu’apporte la personnalisation dans la section suivante.
| Alexa (Echo 5) | Google Assistant (Nest) | Siri (iOS 19) | Bixby 4 (S25) | |
|---|---|---|---|---|
| Paralysie cérébrale · dysarthrie | TEM 54 % · intention 38 % | TEM 41 % · intention 49 % | TEM 47 % · intention 44 % | TEM 63 % · intention 27 % |
| SLA · atteinte bulbaire | TEM 61 % · intention 31 % | TEM 46 % · intention 44 % | TEM 52 % · intention 39 % | TEM 68 % · intention 22 % |
| Aphasie post-AVC | TEM 49 % · intention 36 % | TEM 39 % · intention 47 % | TEM 44 % · intention 41 % | TEM 58 % · intention 28 % |
| Bégaiement persistant | TEM 33 % · intention 51 % | TEM 24 % · intention 67 % | TEM 28 % · intention 61 % | TEM 42 % · intention 44 % |
| Parole sourde / malentendante | TEM 38 % · intention 47 % | TEM 29 % · intention 60 % | TEM 35 % · intention 53 % | TEM 47 % · intention 39 % |
| Accent L2 marqué (3 langues) | TEM 22 % · intention 71 % | TEM 16 % · intention 79 % | TEM 19 % · intention 75 % | TEM 27 % · intention 64 % |
| Référence : locuteur neurotypique L1 | TEM 6 % · intention 94 % | TEM 5 % · intention 95 % | TEM 5 % · intention 95 % | TEM 8 % · intention 90 % |
Trois observations ressortent de la matrice. Premièrement, chaque assistant se dégrade fortement face aux cohortes dysarthriques — SLA, paralysie cérébrale et aphasie post-AVC — avec une reconnaissance d’intention tombant sous 50 % dans l’ensemble. Pour un utilisateur qui dépend de la voix comme modalité d’entrée principale, moins d’une commande sur deux fonctionnant est inutilisable ; cela renvoie l’utilisateur vers un clavier ou un aidant, ce qui va à l’encontre de l’utilité de l’assistant. Deuxièmement, le bégaiement persistant et la parole sourde se situent dans une zone intermédiaire où Google Assistant seul dépasse 60 % d’intention avec les paramètres par défaut ; les autres sont en retard de 7 à 23 points de pourcentage. Troisièmement, les accents L2 marqués sont la seule catégorie « atypique » où les quatre assistants sont approximativement utilisables avec les paramètres par défaut — bien que même là, le taux d’intention de 64 % de Bixby représenterait une expérience utilisateur difficile au quotidien.
La colonne Bixby est la plus mauvaise dans l’ensemble, ce qui correspond à la distribution d’entraînement plus étroite de Samsung et au statut déprécié de Bixby dans la propre feuille de route produit de Samsung. La colonne Google Assistant est en tête sur chaque cohorte dysarthrique, ce qui est cohérent avec l’investissement continu de Google dans les données du Project Euphonia et sa couche d’inférence Project Relate embarquée. Siri se situe dans la moyenne du champ avec les paramètres par défaut, mais, comme la section suivante le montre, affiche l’écart défaut/personnalisation le plus important des quatre.
Tous les chiffres ci-dessus sont des médianes sur dix essais par énoncé. Les intervalles de confiance à 95 % sur les cohortes dysarthriques sont larges — typiquement plus ou moins 5 à 8 points de pourcentage — car les assistants présentent un décodage non déterministe pour les entrées ambiguës. L’ordre relatif des quatre colonnes est stable entre les essais ; les chiffres absolus dans une cellule donnée doivent être lus comme un instantané, pas comme une constante.
4. Les fonctions de personnalisation qui font la différence
Les quatre plateformes proposent désormais au moins une fonction de personnalisation destinée à la parole atypique. Elles diffèrent par le coût de configuration, l’endroit où l’inférence s’exécute et l’amélioration réelle de la reconnaissance. Nous avons soumis les mêmes 3 420 énoncés à chaque assistant après activation du mode de personnalisation phare de chaque plateforme, avec une inscription par locuteur d’environ 15 minutes de parole d’entraînement.
La personnalisation qui adapte le modèle acoustique au locuteur — Listen for Atypical Speech de Siri, Project Relate — produit des gains en double chiffre qui comblent la plupart de l’écart avec la reconnaissance neurotypique de référence pour le même locuteur. La personnalisation qui ne fait que mémoriser un ensemble fixe d’associations énoncé-action — les phrases personnalisées d’Alexa — apporte une amélioration bien plus faible sur un vocabulaire bien plus restreint. L’architecture compte davantage que le discours marketing.
5. Bonnes et mauvaises pratiques d’interface vocale pour la parole atypique
Les plateformes fixent le plancher de reconnaissance, mais les pratiques d’interface vocale que les designers et développeurs construisent par-dessus ces plateformes fixent le plafond. La même skill, la même Action, la même intention SiriKit peuvent être conçues de façon à aggraver les échecs de reconnaissance ou à s’en remettre gracieusement. Les paires ci-dessous mettent en évidence les trois pratiques où nous observons le plus grand écart dans le code en production.
Mauvais : demander à l’utilisateur de répéter toute la commande en cas d’échec de reconnaissance. « Désolé, je n’ai pas compris. Que souhaitez-vous faire ? » oblige un utilisateur à parole atypique à ré-articuler un long énoncé — précisément le cas dans lequel le système vient d’échouer — sans lui offrir d’échafaudage vers une phrase reconnue.
Bon : proposer deux ou trois options contraintes après un échec. « Désolé, vouliez-vous jouer de la musique, régler une minuterie, ou vérifier la météo ? » donne au décodeur un a priori de modèle de langue bien plus restreint sur lequel s’appuyer, ce qui est précisément le régime dans lequel la reconnaissance de parole atypique fonctionne le mieux. Voice Access utilise ce schéma ; l’API de désambiguïsation de SiriKit l’active pour les intentions tierces.
Mauvais : s’appuyer sur un seuil de silence fixe de 1,5 seconde pour décider que l’utilisateur a fini de parler. Les locuteurs atteints de SLA et de dysarthrie font régulièrement des pauses plus longues en milieu d’énoncé pour reprendre leur souffle ou réinitialiser leurs articulateurs ; l’assistant les interrompt et traite un fragment.
Bon : exposer un paramètre de pause prolongée (« Allow Siri to Pause » de Siri réglé à 5 secondes ; « Speaking time » de Google Assistant sur « Long ») et le rendre accessible depuis le menu d’accessibilité — non enfoui dans les paramètres vocaux. Associer ce paramètre à un indicateur d’enregistrement visible pour que le locuteur puisse voir qu’il a encore la parole.
Mauvais : livrer un seuil de détection du mot d’activation unique, calibré pour maximiser le taux de faux-rejets sur les voix neurotypiques. Les locuteurs à parole atypique génèrent bien plus de faux-rejets que l’utilisateur moyen — le mode d’échec de rejet silencieux — parce que le modèle du mot d’activation n’a, dans les faits, jamais vu leur voix pendant l’entraînement.
Bon : livrer un curseur de sensibilité du mot d’activation par utilisateur qui abaisse le seuil de détection pour un locuteur à parole atypique inscrit sur un profil (Google Assistant appelle cela « sensibilité Hey Google » ; Alexa n’a pas d’équivalent au niveau utilisateur). Associer cela à une affordance d’activation par pression physique ou à l’écran, pour que le mot d’activation ne soit jamais le seul chemin d’accès.
6. Ce que les designers et ingénieurs devraient livrer
Traiter la reconnaissance avec profil par défaut comme un plancher de cas le plus défavorable, pas comme une cible
Tout plan de test devrait inclure un passage avec personnalisation activée en parallèle du passage avec profil par défaut. Si votre skill, Action ou intention SiriKit ne fonctionne que pour les utilisateurs qui se sont inscrits sur Project Relate ou Listen for Atypical Speech, documentez-le dans votre déclaration d’accessibilité et exposez l’invitation à s’inscrire depuis l’intérieur de votre application.
Contraindre le modèle de langue aux moments d’ambiguïté
Les invitations de désambiguïsation proposant deux ou trois options explicites récupèrent une grande part de l’écart de TEM sur les cohortes dysarthriques, parce que le décodeur note désormais un minuscule vocabulaire fini plutôt qu’un vocabulaire ouvert. Utiliser les API de désambiguïsation de la plateforme ; ne pas réinventer des re-questions libres.
Toujours associer la voix à un chemin d’entrée non vocal
Chaque surface contrôlable par la voix — enceinte connectée, assistant embarqué, application mobile — nécessite un repli non vocal dans le même flux. Un bouton physique, une cible tactile, un mode de saisie textuelle. La voix est une modalité parmi d’autres ; concevoir comme si c’était la seule est ce qui pousse les utilisateurs à parole atypique à abandonner le produit.
Régler la détection de fin d’énoncé et l’exposer dans les paramètres d’accessibilité
Les délais de détection de fin d’énoncé par défaut sont calibrés pour les locuteurs neurotypiques. Ajouter une option de pause prolongée accessible à l’utilisateur dans les paramètres de votre skill d’assistant (les plateformes exposent des crochets ; le paramètre Pause Time de Siri et le paramètre Speaking Time de Google sont les références). L’exposer depuis le menu Accessibilité du système, non depuis un onglet Voix enfoui.
Tester sur les jeux de données publics — pas seulement sur votre équipe
Le Speech Accessibility Project d’Apple et le jeu d’évaluation du Project Euphonia sont disponibles publiquement pour les chercheurs et équipes d’accessibilité qualifiés. Ils couvrent les cohortes que votre équipe QA ne teste presque certainement pas. Soumettre votre détecteur de mot d’activation et votre classifieur d’intention à un sous-ensemble équilibré avant chaque version ; suivre le TEM et le succès d’intention par cohorte, pas seulement un chiffre agrégé.
Conclusion : l’accessibilité des interfaces vocales est un problème de distribution déguisé en problème UX
La matrice ci-dessus est inquiétante, mais elle est aussi lisible. Chaque cellule avec un taux d’intention inférieur à 50 % correspond à un écart identifiable dans la distribution d’entraînement — trop peu de locuteurs dysarthriques, trop peu de bégaiement, trop peu de parole sourde, trop peu de locuteurs non natifs de langues L1 sous-représentées. Les correctifs ne sont pas mystérieux : élargir le jeu de données, construire une couche de personnalisation adaptative au locuteur, exposer une désambiguïsation à vocabulaire contraint, et livrer un repli non vocal sur chaque surface.
Parmi les quatre assistants testés, la pile Google — Assistant plus Project Relate plus Voice Access — déplace le plus de chiffres sur le plus de cohortes, parce que Google a investi le plus régulièrement dans les données de parole atypique et l’adaptation embarquée. Listen for Atypical Speech d’Apple, introduit dans iOS 17, comble la plupart de l’écart avec un coût de configuration bien plus léger et un modèle entièrement embarqué — une garantie de confidentialité forte qui compte pour une catégorie d’utilisateurs pouvant être réticents à transmettre des échantillons de leur parole atypique à un cloud. Alexa d’Amazon est en retard en termes d’architecture de personnalisation ; Bixby de Samsung est en retard dans l’ensemble.
Pour les designers, la conclusion est que l’assistant sur lequel atterrissent vos utilisateurs déterminera la moitié du plancher ; les schémas que vous construisez autour de lui détermineront le reste. Les invitations de désambiguïsation, les paramètres de pause prolongée, les replis non vocaux et les flux d’inscription adaptés à la personnalisation sont les quatre interventions qui déplacent le plus de chiffres dans nos essais répétés. Aucune ne nécessite une équipe de recherche — seulement un système de design qui traite la parole atypique comme un utilisateur de première classe, et non comme un cas marginal.
« L’écart d’accessibilité des interfaces vocales est essentiellement un écart de distribution d’entraînement recouvert d’une fine couche d’UX. La personnalisation comble la majeure partie de l’écart ; les replis non vocaux comblent le reste. »