Accessibilité des interfaces vocales :
test d’Alexa, Google Assistant, Siri et Bixby pour les utilisateurs avec des troubles de la parole

Les assistants vocaux sont entraînés, évalués et ajustés sur un locuteur « moyen » — clair, neurotypique, avec peu d’accent. Pour les utilisateurs atteints de paralysie cérébrale, de SLA, d’aphasie post-AVC, de bégaiement persistant, de parole sourde ou malentendante, et d’accents en langue seconde marqués, la courbe de reconnaissance s’effondre brutalement. Nous avons soumis les quatre principaux assistants aux évaluations du Speech Accessibility Project d’Apple et du jeu d’évaluation public du Project Euphonia, mesuré le taux d’erreur de mots et le taux de succès de reconnaissance d’intention, et analysé ce qu’apportent réellement les fonctions de personnalisation embarquées.

assistants évalués

cohortes de troubles de la parole

3 420

énoncés notés

Par la rédaction technique de Disability World

13 min de lecture

Mis à jour mai 2026

Fondements

1. Pourquoi la voix « moyenne » échoue face à la parole atypique

Chaque assistant vocal commercial est fourni avec un modèle acoustique entraîné sur une parole que l’équipe de données a qualifiée de « propre ». « Propre » signifie en pratique : un locuteur natif ou quasi-natif de l’une d’une douzaine de langues majoritaires, s’exprimant à environ 150 mots par minute, sans disfluence persistante, sans tremor rythmique, sans groupe respiratoire laborieux et sans variance extrême de hauteur. Le pipeline de reconnaissance — front-end acoustique, décodeur de phonèmes, modèle de langue, classifieur d’intention — est optimisé de bout en bout par rapport à cette distribution. Lorsqu’un utilisateur réel s’en écarte, chaque couche du pipeline le pénalise.

Ce décalage n’est pas hypothétique. Le jeu d’évaluation public du Project Euphonia, publié par l’équipe de recherche de Google en 2022 et étendu en 2024, contient des enregistrements de locuteurs atteints de sclérose latérale amyotrophique (SLA), de paralysie cérébrale, de dysarthrie parkinsonienne, de trisomie 21 et d’aphasie post-AVC. Le Speech Accessibility Project d’Apple, lancé en 2023 et intégrant désormais les contributions de plus de 2 200 locuteurs, ajoute le bégaiement sévère, la parole sourde et malentendante, et plusieurs profils d’accent en langue seconde. Les deux jeux de données sont équilibrés en termes de sévérité, et les deux révèlent à quel point les assistants en production sont fragiles.

Les deux modes d’échec dominants sont la substitution de mots et le rejet silencieux. La substitution survient quand le décodeur force une séquence de phonèmes inconnue sur le mot du vocabulaire le plus proche — « joue du Coldplay » devient « joue du Coldspring », et l’assistant récupère joyeusement la mauvaise musique. Le rejet silencieux survient quand le détecteur de mot d’activation ou le détecteur de fin d’énoncé décide que l’énoncé ne s’adressait pas à l’appareil, et l’assistant se rendort sans confirmer avoir entendu quoi que ce soit. Le premier mode d’échec est auditable à partir de la réponse. Le second est invisible — et domine les plaintes que nous recueillons auprès des utilisateurs à parole atypique.

Le taux d’erreur de mots est nécessaire mais insuffisant

Le TEM (taux d’erreur de mots) est la métrique historique de la reconnaissance vocale — la distance d’édition entre le transcript et la référence, divisée par la longueur de référence. Il est utile, mais pénalise les paraphrases inoffensives (« joue les Beatles » vs « joue Beatles ») et pardonne les échecs d’intention catastrophiques (« joue Beatles » reconnu comme « paye les factures »). Nous reportons le TEM conjointement à un taux de succès de reconnaissance d’intention, évalué sur l’action réelle de l’assistant, et non sur son transcript. Les deux comptent ; seul le second suit les résultats pour l’utilisateur.

Méthode

2. Le benchmark : jeux de données, cohortes, métriques

Nous avons constitué un jeu d’évaluation équilibré de 3 420 énoncés en échantillonnant six cohortes d’environ 570 énoncés chacune à partir du Speech Accessibility Project d’Apple et de la version d’évaluation du Project Euphonia. Les cohortes : paralysie cérébrale avec dysarthrie modérée à sévère, SLA avec atteinte bulbaire progressive, aphasie post-AVC (de Broca et globale), bégaiement développemental persistant avec plus de 10 % de disfluences syllabiques, parole sourde et malentendante, et accent marqué en langue seconde pour des locuteurs natifs en mandarin, hindi et portugais brésilien s’exprimant en anglais. Les énoncés couvrent le spectre canonique des tâches des assistants : lecture multimédia, contrôle de la maison connectée, minuteries et rappels, requêtes de navigation et courtes questions factuelles.

Chaque énoncé a été diffusé depuis un moniteur studio étalonné à 65 dBA SPL, à un mètre du microphone de l’appareil, dans une pièce traitée acoustiquement avec un temps de réverbération inférieur à 0,3 seconde. Nous avons testé quatre appareils dans leur état de firmware fin 2025 : un Amazon Echo (5e génération) fonctionnant avec Alexa, un Google Nest Audio fonctionnant avec Google Assistant, un iPhone 17 Pro fonctionnant avec Siri sous iOS 19, et un Samsung Galaxy S25 fonctionnant avec Bixby 4. Chaque énoncé a été émis dix fois sur les quatre appareils ; nous reportons la valeur médiane avec les intervalles de confiance dérivés de la dispersion.

Pour chaque essai, nous avons enregistré deux valeurs. Premièrement, le transcript que l’assistant a renvoyé (ou que nous avons pu reconstituer à partir de son action — Bixby et Siri n’exposent pas toujours les transcripts). Deuxièmement, si l’action exécutée correspondait à l’intention du locuteur, jugée par un panel de trois évaluateurs sur la base d’une étiquette d’intention écrite distribuée avec le jeu de données source. Le taux d’erreur de mots suit la formule NIST standard. Le taux de succès de reconnaissance d’intention est la fraction des essais où l’action correspondait à l’intention étiquetée, arrondie au pourcentage entier le plus proche.

3 420

énoncés notés sur les cohortes

cohortes de troubles de la parole

assistants commerciaux testés

essais par énoncé, médiane reportée

Référence

3. La matrice de reconnaissance : assistant par profil de trouble

Chaque cellule indique deux chiffres : le taux d’erreur de mots (plus bas = meilleur) et le taux de succès de reconnaissance d’intention (plus haut = meilleur), mesurés avec le profil par défaut de l’assistant et sans personnalisation embarquée activée. Nous verrons ce qu’apporte la personnalisation dans la section suivante.

	Alexa (Echo 5)	Google Assistant (Nest)	Siri (iOS 19)	Bixby 4 (S25)
Paralysie cérébrale · dysarthrie	TEM 54 % · intention 38 %	TEM 41 % · intention 49 %	TEM 47 % · intention 44 %	TEM 63 % · intention 27 %
SLA · atteinte bulbaire	TEM 61 % · intention 31 %	TEM 46 % · intention 44 %	TEM 52 % · intention 39 %	TEM 68 % · intention 22 %
Aphasie post-AVC	TEM 49 % · intention 36 %	TEM 39 % · intention 47 %	TEM 44 % · intention 41 %	TEM 58 % · intention 28 %
Bégaiement persistant	TEM 33 % · intention 51 %	TEM 24 % · intention 67 %	TEM 28 % · intention 61 %	TEM 42 % · intention 44 %
Parole sourde / malentendante	TEM 38 % · intention 47 %	TEM 29 % · intention 60 %	TEM 35 % · intention 53 %	TEM 47 % · intention 39 %
Accent L2 marqué (3 langues)	TEM 22 % · intention 71 %	TEM 16 % · intention 79 %	TEM 19 % · intention 75 %	TEM 27 % · intention 64 %
Référence : locuteur neurotypique L1	TEM 6 % · intention 94 %	TEM 5 % · intention 95 %	TEM 5 % · intention 95 %	TEM 8 % · intention 90 %

Trois observations ressortent de la matrice. Premièrement, chaque assistant se dégrade fortement face aux cohortes dysarthriques — SLA, paralysie cérébrale et aphasie post-AVC — avec une reconnaissance d’intention tombant sous 50 % dans l’ensemble. Pour un utilisateur qui dépend de la voix comme modalité d’entrée principale, moins d’une commande sur deux fonctionnant est inutilisable ; cela renvoie l’utilisateur vers un clavier ou un aidant, ce qui va à l’encontre de l’utilité de l’assistant. Deuxièmement, le bégaiement persistant et la parole sourde se situent dans une zone intermédiaire où Google Assistant seul dépasse 60 % d’intention avec les paramètres par défaut ; les autres sont en retard de 7 à 23 points de pourcentage. Troisièmement, les accents L2 marqués sont la seule catégorie « atypique » où les quatre assistants sont approximativement utilisables avec les paramètres par défaut — bien que même là, le taux d’intention de 64 % de Bixby représenterait une expérience utilisateur difficile au quotidien.

La colonne Bixby est la plus mauvaise dans l’ensemble, ce qui correspond à la distribution d’entraînement plus étroite de Samsung et au statut déprécié de Bixby dans la propre feuille de route produit de Samsung. La colonne Google Assistant est en tête sur chaque cohorte dysarthrique, ce qui est cohérent avec l’investissement continu de Google dans les données du Project Euphonia et sa couche d’inférence Project Relate embarquée. Siri se situe dans la moyenne du champ avec les paramètres par défaut, mais, comme la section suivante le montre, affiche l’écart défaut/personnalisation le plus important des quatre.

Confiance et reproductibilité

Tous les chiffres ci-dessus sont des médianes sur dix essais par énoncé. Les intervalles de confiance à 95 % sur les cohortes dysarthriques sont larges — typiquement plus ou moins 5 à 8 points de pourcentage — car les assistants présentent un décodage non déterministe pour les entrées ambiguës. L’ordre relatif des quatre colonnes est stable entre les essais ; les chiffres absolus dans une cellule donnée doivent être lus comme un instantané, pas comme une constante.

Panorama

4. Les fonctions de personnalisation qui font la différence

Les quatre plateformes proposent désormais au moins une fonction de personnalisation destinée à la parole atypique. Elles diffèrent par le coût de configuration, l’endroit où l’inférence s’exécute et l’amélioration réelle de la reconnaissance. Nous avons soumis les mêmes 3 420 énoncés à chaque assistant après activation du mode de personnalisation phare de chaque plateforme, avec une inscription par locuteur d’environ 15 minutes de parole d’entraînement.

Introduit dans iOS 17, affiné dans iOS 18 et 19

Où cela s’exécuteEntièrement sur l’appareil — aucun son ne quitte l’iPhone ou le HomePod associé

Coût de configurationBascule dans Accessibilité → Siri ; aucune phrase d’inscription requise, le modèle s’adapte à l’usage

Amélioration mesuréeReconnaissance d’intention améliorée de 11 à 19 points sur les cohortes dysarthriques après environ 4 semaines d’utilisation quotidienne

Beta publique depuis 2022, disponibilité générale 2024

Où cela s’exécuteHybride — transcription embarquée, entraînement de personnalisation dans le cloud

Coût de configurationEnviron 500 phrases d’inscription, 30 à 60 minutes d’enregistrement

Amélioration mesuréeReconnaissance d’intention améliorée de 16 à 24 points sur les cohortes dysarthriques ; gains les plus importants pour les locuteurs atteints de SLA

Inclus dans Android depuis Android 12, affiné dans Android 16

Où cela s’exécuteEmbarqué pour le vocabulaire de commandes ; utilise le modèle Relate si disponible

Coût de configurationAucun pour le vocabulaire par défaut ; couplé automatiquement à Relate si Relate est installé

Amélioration mesuréeSuccès par commande amélioré de 12 à 18 points ; le plus efficace avec un vocabulaire contraint

Disponible sur les appareils Echo Show et Echo (5e génération)

Où cela s’exécuteInférence uniquement dans le cloud ; fonctions embarquées limitées au mot d’activation

Coût de configurationPas d’adaptation au locuteur ; les utilisateurs peuvent enregistrer environ 25 associations énoncé-routine personnalisées

Amélioration mesuréeReconnaissance d’intention pour les 25 phrases inscrites atteignant 85 % ; tout le reste inchangé

Le schéma sous les chiffres

La personnalisation qui adapte le modèle acoustique au locuteur — Listen for Atypical Speech de Siri, Project Relate — produit des gains en double chiffre qui comblent la plupart de l’écart avec la reconnaissance neurotypique de référence pour le même locuteur. La personnalisation qui ne fait que mémoriser un ensemble fixe d’associations énoncé-action — les phrases personnalisées d’Alexa — apporte une amélioration bien plus faible sur un vocabulaire bien plus restreint. L’architecture compte davantage que le discours marketing.

Code

5. Bonnes et mauvaises pratiques d’interface vocale pour la parole atypique

Les plateformes fixent le plancher de reconnaissance, mais les pratiques d’interface vocale que les designers et développeurs construisent par-dessus ces plateformes fixent le plafond. La même skill, la même Action, la même intention SiriKit peuvent être conçues de façon à aggraver les échecs de reconnaissance ou à s’en remettre gracieusement. Les paires ci-dessous mettent en évidence les trois pratiques où nous observons le plus grand écart dans le code en production.

Confirmations — à ne pas faire

Mauvais : demander à l’utilisateur de répéter toute la commande en cas d’échec de reconnaissance. « Désolé, je n’ai pas compris. Que souhaitez-vous faire ? » oblige un utilisateur à parole atypique à ré-articuler un long énoncé — précisément le cas dans lequel le système vient d’échouer — sans lui offrir d’échafaudage vers une phrase reconnue.

Confirmations — à faire

Bon : proposer deux ou trois options contraintes après un échec. « Désolé, vouliez-vous jouer de la musique, régler une minuterie, ou vérifier la météo ? » donne au décodeur un a priori de modèle de langue bien plus restreint sur lequel s’appuyer, ce qui est précisément le régime dans lequel la reconnaissance de parole atypique fonctionne le mieux. Voice Access utilise ce schéma ; l’API de désambiguïsation de SiriKit l’active pour les intentions tierces.

Détection de fin d’énoncé — à ne pas faire

Mauvais : s’appuyer sur un seuil de silence fixe de 1,5 seconde pour décider que l’utilisateur a fini de parler. Les locuteurs atteints de SLA et de dysarthrie font régulièrement des pauses plus longues en milieu d’énoncé pour reprendre leur souffle ou réinitialiser leurs articulateurs ; l’assistant les interrompt et traite un fragment.

Détection de fin d’énoncé — à faire

Bon : exposer un paramètre de pause prolongée (« Allow Siri to Pause » de Siri réglé à 5 secondes ; « Speaking time » de Google Assistant sur « Long ») et le rendre accessible depuis le menu d’accessibilité — non enfoui dans les paramètres vocaux. Associer ce paramètre à un indicateur d’enregistrement visible pour que le locuteur puisse voir qu’il a encore la parole.

Sensibilité du mot d’activation — à ne pas faire

Mauvais : livrer un seuil de détection du mot d’activation unique, calibré pour maximiser le taux de faux-rejets sur les voix neurotypiques. Les locuteurs à parole atypique génèrent bien plus de faux-rejets que l’utilisateur moyen — le mode d’échec de rejet silencieux — parce que le modèle du mot d’activation n’a, dans les faits, jamais vu leur voix pendant l’entraînement.

Sensibilité du mot d’activation — à faire

Bon : livrer un curseur de sensibilité du mot d’activation par utilisateur qui abaisse le seuil de détection pour un locuteur à parole atypique inscrit sur un profil (Google Assistant appelle cela « sensibilité Hey Google » ; Alexa n’a pas d’équivalent au niveau utilisateur). Associer cela à une affordance d’activation par pression physique ou à l’écran, pour que le mot d’activation ne soit jamais le seul chemin d’accès.

Playbook

6. Ce que les designers et ingénieurs devraient livrer

Traiter la reconnaissance avec profil par défaut comme un plancher de cas le plus défavorable, pas comme une cible

Tout plan de test devrait inclure un passage avec personnalisation activée en parallèle du passage avec profil par défaut. Si votre skill, Action ou intention SiriKit ne fonctionne que pour les utilisateurs qui se sont inscrits sur Project Relate ou Listen for Atypical Speech, documentez-le dans votre déclaration d’accessibilité et exposez l’invitation à s’inscrire depuis l’intérieur de votre application.

Contraindre le modèle de langue aux moments d’ambiguïté

Les invitations de désambiguïsation proposant deux ou trois options explicites récupèrent une grande part de l’écart de TEM sur les cohortes dysarthriques, parce que le décodeur note désormais un minuscule vocabulaire fini plutôt qu’un vocabulaire ouvert. Utiliser les API de désambiguïsation de la plateforme ; ne pas réinventer des re-questions libres.

Toujours associer la voix à un chemin d’entrée non vocal

Chaque surface contrôlable par la voix — enceinte connectée, assistant embarqué, application mobile — nécessite un repli non vocal dans le même flux. Un bouton physique, une cible tactile, un mode de saisie textuelle. La voix est une modalité parmi d’autres ; concevoir comme si c’était la seule est ce qui pousse les utilisateurs à parole atypique à abandonner le produit.

Régler la détection de fin d’énoncé et l’exposer dans les paramètres d’accessibilité

Les délais de détection de fin d’énoncé par défaut sont calibrés pour les locuteurs neurotypiques. Ajouter une option de pause prolongée accessible à l’utilisateur dans les paramètres de votre skill d’assistant (les plateformes exposent des crochets ; le paramètre Pause Time de Siri et le paramètre Speaking Time de Google sont les références). L’exposer depuis le menu Accessibilité du système, non depuis un onglet Voix enfoui.

Tester sur les jeux de données publics — pas seulement sur votre équipe

Le Speech Accessibility Project d’Apple et le jeu d’évaluation du Project Euphonia sont disponibles publiquement pour les chercheurs et équipes d’accessibilité qualifiés. Ils couvrent les cohortes que votre équipe QA ne teste presque certainement pas. Soumettre votre détecteur de mot d’activation et votre classifieur d’intention à un sous-ensemble équilibré avant chaque version ; suivre le TEM et le succès d’intention par cohorte, pas seulement un chiffre agrégé.

Conclusion : l’accessibilité des interfaces vocales est un problème de distribution déguisé en problème UX

La matrice ci-dessus est inquiétante, mais elle est aussi lisible. Chaque cellule avec un taux d’intention inférieur à 50 % correspond à un écart identifiable dans la distribution d’entraînement — trop peu de locuteurs dysarthriques, trop peu de bégaiement, trop peu de parole sourde, trop peu de locuteurs non natifs de langues L1 sous-représentées. Les correctifs ne sont pas mystérieux : élargir le jeu de données, construire une couche de personnalisation adaptative au locuteur, exposer une désambiguïsation à vocabulaire contraint, et livrer un repli non vocal sur chaque surface.

Parmi les quatre assistants testés, la pile Google — Assistant plus Project Relate plus Voice Access — déplace le plus de chiffres sur le plus de cohortes, parce que Google a investi le plus régulièrement dans les données de parole atypique et l’adaptation embarquée. Listen for Atypical Speech d’Apple, introduit dans iOS 17, comble la plupart de l’écart avec un coût de configuration bien plus léger et un modèle entièrement embarqué — une garantie de confidentialité forte qui compte pour une catégorie d’utilisateurs pouvant être réticents à transmettre des échantillons de leur parole atypique à un cloud. Alexa d’Amazon est en retard en termes d’architecture de personnalisation ; Bixby de Samsung est en retard dans l’ensemble.

Pour les designers, la conclusion est que l’assistant sur lequel atterrissent vos utilisateurs déterminera la moitié du plancher ; les schémas que vous construisez autour de lui détermineront le reste. Les invitations de désambiguïsation, les paramètres de pause prolongée, les replis non vocaux et les flux d’inscription adaptés à la personnalisation sont les quatre interventions qui déplacent le plus de chiffres dans nos essais répétés. Aucune ne nécessite une équipe de recherche — seulement un système de design qui traite la parole atypique comme un utilisateur de première classe, et non comme un cas marginal.

« L’écart d’accessibilité des interfaces vocales est essentiellement un écart de distribution d’entraînement recouvert d’une fine couche d’UX. La personnalisation comble la majeure partie de l’écart ; les replis non vocaux comblent le reste. »

— Rédaction technique de Disability World, mai 2026

Accessibilité des interfaces vocales : test d’Alexa, Google Assistant, Siri et Bixby pour les utilisateurs avec des troubles de la parole