Accessibilité AR/VR : WebXR et ARIA en 2026

Par Disability WorldTemps de lecture : 10 minutes

Tous les dix-huit mois, un cycle de presse autour du matériel de réalité mixte promet un avenir inclusif. Le lancement de l’Apple Vision Pro en 2024 l’a promis. Le lancement du Meta Quest 3, puis le Quest 3S plus compact qui a suivi, l’ont également promis. La spécification WebXR — la norme W3C pour la RA et la RV rendues dans le navigateur — le promet depuis 2018. La réalité, à la mi-2026, est plus sobre : il existe exactement un casque grand public sur le marché doté d’une surface d’accessibilité native sérieuse, et la couche navigateur neutre vis-à-vis de la plateforme sous-jacente est encore un vide structurel là où le texte alternatif, la gestion du focus et la sémantique des technologies d’assistance sont censés s’installer. Cet article est un guide sur l’état réel de la technologie — ce qui fonctionne aujourd’hui, ce qui reste une promesse et ce qu’un développeur en 2026 devrait et ne devrait pas publier.

La perspective est éditoriale plutôt qu’évangélique. Nous n’affirmons pas que la XR est intrinsèquement plus ou moins accessible que le web en deux dimensions. Nous affirmons que le discours pour les développeurs sur l’accessibilité XR en 2026 ressemble à peu près au discours pour les développeurs sur l’accessibilité web tel qu’il était en 2002 : une norme émergente avec la plupart des mots manquants, deux plateformes dominantes qui avancent à des vitesses différentes, et un petit groupe d’utilisateurs handicapés portant la majeure partie de la connaissance pratique dans leur propre mémoire musculaire.

Le paysage matériel en 2026

Trois appareils dominent l’extrémité grand public du marché de la réalité mixte aujourd’hui, et ils adoptent trois positions différentes sur l’accessibilité. L’Apple Vision Pro, fonctionnant sous visionOS 2.4, est le seul des trois à disposer d’une surface d’accessibilité sérieuse intégrée au système d’exploitation lui-même — VoiceOver dans l’espace 3D, commande par commutateur, personnalisation du suivi des mains, suivi oculaire comme entrée principale, et une implémentation Spatial Audio que les utilisateurs handicapés ont décrite à plusieurs reprises comme la plus utilisable de la catégorie. Le Meta Quest 3 et le Quest 3S à moindre coût partagent un système d’exploitation — Horizon OS — avec une couche d’accessibilité plus mince : mode contraste élevé, remappage des contrôleurs, un filtre de correction des couleurs, des commandes vocales pour la navigation et un lecteur d’écran (ajouté à la mi-2024) qui fonctionne dans l’interface système mais pas de manière fiable dans les applications tierces. Le Sony PlayStation VR2 ne propose pratiquement aucune fonctionnalité d’accessibilité native dans son interface VR, bien qu’il hérite de la couche d’accessibilité plus large de la PS5 lors de l’exécution de contenus à écran plat.

Les prix ont évolué de manière notable. Le Vision Pro original s’est lancé à environ 3 499 USD ; le Quest 3 est à environ 499 USD et le Quest 3S à environ 299 USD. Cet écart est important pour un argument sur l’accessibilité, car l’appareil offrant la meilleure prise en charge des entrées pour les personnes handicapées est aussi celui que la grande majorité des utilisateurs handicapés ne peut pas se permettre d’acheter sans un parcours d’aménagement raisonnable financé par l’employeur. La forme du marché à la mi-2026 est, en termes clairs : le casque accessible est cher, et le casque abordable est, au niveau système, accessible surtout dans le sens où il ne vous empêche pas activement de l’utiliser.

La catégorie au-delà de ces trois — les lunettes intelligentes à simple mode de passage comme les Ray-Ban Meta, les lunettes d’affichage de type Xreal Air et les divers casques professionnels utilisés dans les flux de travail chirurgicaux et industriels — se situe en grande partie en dehors de la conversation sur l’accessibilité XR grand public. La plupart de ces appareils ne font pas tourner un système d’exploitation de classe bureau, n’exposent pas d’API d’accessibilité au niveau système et sont mis sur le marché dans un cadre réglementaire qui les traite comme des accessoires portables plutôt que comme des ordinateurs.

La spécification WebXR — et ce qu’elle ne dit pas encore

WebXR est la spécification W3C qui permet à un navigateur de donner à un site web accès à un appareil AR ou VR connecté. Elle expose un objet de session, un contexte de rendu (généralement superposé à WebGL2 ou WebGPU) et un modèle de source d’entrée pour les mains, les contrôleurs et le regard. La prise en charge par les navigateurs, à la mi-2026, est la plus forte dans les navigateurs basés sur Chromium (Chrome, Edge, Brave et une poignée de navigateurs XR mobiles), partielle dans Firefox via une version entreprise, et historiquement absente de Safari — Safari sur visionOS prend en charge la spécification mais uniquement dans les sessions immersives et avec la sémantique d’entrée fournie par le pipeline de suivi des mains d’Apple. La position de WebKit sur WebXR a évolué de manière significative au cours des douze derniers mois, mais reste une surface moins mature que son équivalent Chromium.

La spécification couvre ce que le casque peut faire — rendre des images stéréo, rapporter des données de pose, exposer les transformations de prise en main et de visée, écouter les événements de sélection d’un contrôleur ou d’un geste de pincement. Elle ne dit presque rien sur l’accessibilité. Il n’existe pas d’équivalent d’un attribut alt pour un objet dans l’espace 3D. Il n’existe pas de modèle de focus formel qu’une technologie d’assistance puisse parcourir. Il n’existe pas de moyen au niveau de la spécification d’étiqueter un bouton virtuel pour qu’un lecteur d’écran puisse l’annoncer. Ce qui se rapproche le plus d’un point d’ancrage d’accessibilité dans la spécification WebXR aujourd’hui est le tableau profiles de la source d’entrée, qui permet à un site d’identifier si l’entrée est une main, un contrôleur ou un curseur de regard — et ce tableau existe pour des raisons de rendu de contenu, non pour des raisons de technologie d’assistance.

Il ne s’agit pas d’une critique du W3C — c’est un constat sur l’état d’avancement des travaux. Le projet de document sur les exigences d’accessibilité utilisateur de WebXR (XAUR) existe bien au W3C, et le groupe de travail sur le Web immersif a reconnu la plupart des lacunes pertinentes. Mais XAUR est un document d’exigences, non une spécification normative, et l’écart entre « nous savons ce dont la spécification a besoin » et « la spécification le dit normativement » est, en pratique, là où la plupart des utilisateurs handicapés vivent aujourd’hui.

L’accessibilité de l’Apple Vision Pro, en détail

Vision Pro offre la meilleure prise en charge de l’accessibilité sur le marché XR grand public aujourd’hui, et l’écart avec tous les autres n’est pas subtil. L’entrée principale du casque est le suivi oculaire — l’utilisateur regarde une cible et le cône de regard définit l’élément focalisé — combiné à un petit ensemble de gestes des mains détectés par des caméras orientées vers le bas. Pour les utilisateurs handicapés, Apple a ajouté plusieurs surfaces qui modifient matériellement ce qui est possible dans visionOS.

Le suivi oculaire comme entrée principale signifie que les utilisateurs présentant une déficience motrice sévère des membres supérieurs peuvent piloter l’ensemble du système d’exploitation sans mouvement de la main ou du bras, à condition que leur regard soit suffisamment fiable pour se fixer sur une cible pendant la durée de maintien. Les alternatives de suivi des mains permettent aux utilisateurs de substituer des tapotements à un seul doigt, des mouvements du poignet ou des gestes de la tête uniquement lorsque le pincement-tapotement par défaut n’est pas fiable — une surface particulièrement importante pour les utilisateurs souffrant d’affections neuromusculaires affectant le contrôle fin des doigts. VoiceOver dans l’espace 3D lit l’élément focalisé dans les contextes immersifs et utilise Spatial Audio pour indiquer la position spatiale de l’élément par rapport à la tête de l’utilisateur — une expérience significativement différente d’un lecteur d’écran sur écran plat, et qui, lorsqu’elle fonctionne, réduit la charge cognitive liée à la construction d’un modèle mental de la scène.

Spatial Audio pour l’accessibilité va au-delà de VoiceOver. Les signaux audio pour les événements système — notifications, changements de focus, ouvertures de boîtes de dialogue — sont positionnés dans l’espace 3D pour qu’un utilisateur malvoyant ou aveugle puisse les localiser sans balayer son regard. Le contrôle par commutateur fonctionne dans les sessions immersives, bien que l’entrée doive être associée via la même configuration d’accessibilité Apple que sur iPadOS ou macOS. Les audiodescriptions sont exposées dans l’application Apple TV pour la vidéo immersive. Et le pointage par la tête existe comme alternative récemment ajoutée pour les utilisateurs dont les yeux ne suivent pas de manière fiable, bien qu’il soit plus lent et plus fatigant que le défaut piloté par les yeux.

Rien de tout cela n’est parfait. VoiceOver dans les applications tierces dépend encore que le développeur câble correctement les composants SwiftUI ou RealityKit, et le catalogue d’applications tierces est réduit. La personnalisation du suivi des mains nécessite de parcourir plusieurs couches de paramètres et n’est pas intuitive. L’étalonnage du suivi oculaire lui-même peut échouer à plusieurs reprises pour les utilisateurs souffrant de strabisme, de nystagmus ou de dysimétrie du regard post-AVC. Mais comparé à tout autre casque grand public sur le marché en 2026, la surface d’accessibilité du Vision Pro est la seule avec laquelle un utilisateur handicapé peut s’asseoir et raisonnablement s’attendre à pouvoir utiliser l’appareil.

L’accessibilité du Meta Quest 3 et 3S, en détail

Horizon OS a rattrapé son retard au cours des dix-huit derniers mois, mais l’écart avec visionOS est réel. Quest 3 et Quest 3S sont livrés avec un lecteur d’écran au niveau système qui annonce les éléments d’interface du shell — Accueil, Bibliothèque, Store, Paramètres — et qui fonctionne de manière raisonnablement fiable dans les propres applications de Meta. En dehors du shell, la situation change : la plupart des applications VR tierces rendent leur interface dans leur propre moteur (Unity ou Unreal dans la plupart des cas) et n’alimentent pas du tout le lecteur d’écran système en texte. Un utilisateur aveugle peut ouvrir le store Quest, mais ne peut pas jouer de manière fiable à la plupart de ce qu’il achète.

Les commandes vocales existent pour la navigation dans le shell (« ouvrir la bibliothèque », « aller à l’accueil ») et dans un petit ensemble d’applications. Le mode contraste élevé et un filtre de correction des couleurs existent au niveau système. Le remappage des contrôleurs fonctionne dans l’interface shell et dans le petit ensemble d’applications qui utilisent la couche d’abstraction des entrées de Meta plutôt que de lire directement les boutons du contrôleur. Le suivi des mains existe comme modalité d’entrée, et le firmware récent a amélioré l’ensemble de gestes, mais le système de suivi des mains du Quest a été conçu comme une alternative sans contrôleur pour les utilisateurs non handicapés, non comme une entrée d’accessibilité — il n’y a pas de clic par maintien, pas de pointeur de tête alternatif, pas d’équivalent du tapotement à un seul doigt du Vision Pro.

La lacune la plus notable, pour un public de développeurs, est l’absence d’une API d’accessibilité publiée pour Horizon OS. Un développeur créant une application Quest sous Unity ne peut pas aujourd’hui lire les paramètres d’accessibilité système, ne peut pas enregistrer l’application auprès du lecteur d’écran système et ne peut pas exposer des cibles de focus étiquetées au système d’une manière qui persiste entre les applications. La feuille de route d’accessibilité Quest que Meta a publiée début 2025 s’engage à fournir une telle API, mais à la mi-2026 elle n’est pas encore disponible.

L’intersection ARIA + WebXR — et la promesse non tenue de l’entrée vocale

La spécification ARIA — l’ensemble d’attributs permettant à un développeur d’exposer des rôles, des états et des propriétés aux technologies d’assistance — a été conçue pour des documents en deux dimensions. Des rôles tels que button, dialog, tab et navigation présupposent un modèle de focus qui se déplace le long de l’arbre du document. WebXR n’a pas d’arbre de document au sens WebGL ou WebGPU — il y a un graphe de scène, mais il vit dans l’application, non dans l’arbre d’accessibilité du navigateur. L’intersection d’ARIA et de WebXR, à la mi-2026, est en grande partie une absence : le navigateur ne peut pas voir la structure de la scène 3D, le lecteur d’écran ne peut pas la parcourir, et le développeur ne peut pas étiqueter de manière déclarative les objets virtuels comme il peut étiqueter des boutons HTML.

Il existe des solutions de contournement partielles. Un site WebXR peut rendre une surface d’accessibilité parallèle basée sur le DOM — une structure HTML cachée qui reproduit les éléments interactifs de la scène 3D, avec les rôles et étiquettes ARIA appropriés, et qui met à jour le focus lorsque la sélection 3D change. Ce schéma est fonctionnel mais laborieux ; il double le coût de développement, et il tend à se désynchroniser au fur et à mesure que la scène 3D évolue. Le groupe de travail sur le Web immersif du W3C a discuté d’une proposition normative d’« élément 3D accessible » qui exposerait les nœuds du graphe de scène à l’arbre d’accessibilité, mais la discussion n’en est pas encore au stade d’une ébauche de spécification.

L’autre intersection qui devrait exister maintenant et qui n’existe pas est l’entrée vocale de premier plan. La voix était, pendant plusieurs années, la réponse rhétorique à « comment un utilisateur souffrant d’une déficience motrice va-t-il naviguer dans une scène 3D sans les mains ? » La réalité, en 2026, est que la saisie vocale dans la XR immersive est fragile. Le microphone est positionné près de la bouche de l’utilisateur, mais à l’intérieur d’un casque dont la captation sonore est optimisée pour le rendu audio spatial à l’échelle d’une pièce, non pour la capture vocale. Les indices de confiance sur la reconnaissance des commandes vocales à l’intérieur du Vision Pro et du Quest restent bien en dessous du chiffre équivalent sur un smartphone. La promesse de « parlez-lui simplement » ne s’est pas matérialisée, et le flux de travail de la technologie d’assistance dans la XR reste piloté par les gestes et le regard, la voix étant un complément peu fiable plutôt qu’une modalité principale.

La troisième intersection, et celle qui a la plus longue portée, est la question de la navigation geste-contre-canne. Les utilisateurs aveugles dans l’espace physique naviguent à l’aide d’une canne blanche, d’un chien-guide ou de repères d’écholocation ; le modèle spatial qu’ils construisent est ancré aux obstacles au niveau du sol et à la proprioception du corps. La plupart des scènes XR sont conçues autour d’un utilisateur assis ou debout dont les cibles d’interaction flottent à hauteur de poitrine dans une boîte de délimitation à l’échelle d’une pièce. Le décalage n’est pas esthétique — il est structurel. Le modèle de « canne », où l’utilisateur déplace son attention le long d’une sonde à faible énergie à travers la scène, ne correspond à aucune entrée que les runtimes XR actuels prennent en charge. Un site WebXR qui voudrait exposer une surface de navigation à la canne à un utilisateur aveugle devrait inventer la surface lui-même, sans aucune aide du navigateur, de la spécification ou du système d’exploitation.

Où les développeurs devraient aller en 2026

Si vous créez des expériences XR en 2026 et souhaitez qu’elles soient utilisables par des utilisateurs handicapés, la réponse honnête est : ne publiez pas encore de WebXR basé sur navigateur pour les utilisateurs handicapés, sauf comme contenu supplémentaire. Publiez des applications visionOS natives si le budget le permet, car c’est la seule plateforme où la surface d’accessibilité est réelle, les API au niveau système fonctionnent, et un utilisateur handicapé peut associer l’application à une technologie d’assistance qu’il connaît déjà. Publiez des applications Quest natives avec prudence, en sachant que la surface d’accessibilité système captera les interactions au niveau du shell mais pas dans l’application, et que le développeur est responsable de la construction de l’équivalent d’un arbre d’accessibilité dans son propre moteur d’application.

Pour WebXR spécifiquement, la posture responsable en 2026 est de le traiter comme une amélioration progressive. Construisez l’expérience d’abord comme une surface HTML plate et accessible qui satisfait aux critères de succès pertinents des WCAG 2.2. Superposez l’expérience XR immersive pour les utilisateurs qui la souhaitent et peuvent l’utiliser, et assurez-vous que la surface plate offre le même contenu et les mêmes résultats. Ne publiez pas, en 2026, un site WebXR sans repli plat et n’espérez pas qu’un utilisateur handicapé y trouvera un chemin alternatif — il n’en existe pas.

La vue d’ensemble est que le discours sur l’accessibilité XR se trouve à un point d’inflexion similaire à celui où se trouvait le discours sur l’accessibilité web il y a vingt ans : les normes rattrapent leur retard, les plateformes divergent, et l’écart entre « ce dont les utilisateurs handicapés ont besoin » et « ce que la spécification requiert normativement » est large. Le travail qui doit se faire au cours des deux prochaines années — XAUR passant des exigences à la spécification normative, la proposition d’arbre d’accessibilité pour la 3D se stabilisant, l’entrée vocale s’améliorant dans les casques et une API d’accessibilité Horizon OS effectivement publiée — est identifiable. Que cela se produise dans les délais dont la communauté d’utilisateurs a besoin est une autre question, que cette publication continuera de suivre.