Les doigts d'une personne aveugle lisant un graphique en courbes tactile sur un afficheur braille actualisable multiligne, en lumière naturelle douce.
Image description: Les doigts d'une personne aveugle lisant un graphique en courbes tactile sur un afficheur braille actualisable multiligne, en lumière naturelle douce.

Guide technique · Technologies d'assistance pour les aveugles

Technologies d'assistance pour les personnes aveugles : le bond de trois ans qui a rendu la vision accessible à la demande

Les technologies d'assistance pour les personnes aveugles et malvoyantes ont davantage évolué entre 2023 et 2026 que durant la décennie précédente. Ce guide cartographie Be My AI, Ray-Ban Meta, les cannes connectées, le Monarch et les lecteurs d'écran IA.

La vision à la demande
les trois années qui ont transformé la vie des personnes aveugles et malvoyantes

Entre 2023 et 2026, les outils utilisés au quotidien par les personnes aveugles et malvoyantes ont cessé d’être un lent filet d’appareils à usage unique pour devenir une vague d’IA polyvalente. Un téléphone peut désormais décrire une pièce, une paire de lunettes d’apparence ordinaire peut appeler un bénévole, et un afficheur braille peut enfin représenter un graphique. Ce guide cartographie ce qui a réellement été mis sur le marché, qui le fabrique, et — tout aussi important — où chaque outil reste encore défaillant.

Mar 2023
GPT-4 vision lancé avec Be My Eyes comme partenaire fondateur
Nov 2024
Les lunettes Ray-Ban Meta ont reçu un mode pour les personnes aveugles
10 lignes
premier afficheur braille et graphique tactile multiligne grand public
13 min de lecture
Mis à jour en mai 2026

1. Ce qui a réellement changé

Durant la majeure partie de l’ère des smartphones, les technologies d’assistance dont dépendait une personne aveugle se déclinaient en deux grandes catégories. Il y avait les appareils étroits, coûteux et à usage unique — une caméra de lecture de texte, un identificateur de couleurs, un GPS doté d’une voix maladroite — et il y avait les applications qui vous mettaient en contact avec un être humain, parce qu’aucune machine ne pouvait décrire de manière fiable le monde visuel encombré. La première catégorie était onéreuse et fragile. La seconde fonctionnait, mais cela impliquait de solliciter quelqu’un chaque fois que l’on voulait savoir si le lait avait expiré.

Le tournant est survenu en mars 2023, quand OpenAI a annoncé GPT-4 en choisissant l’application pour personnes aveugles Be My Eyes comme démonstration phare de ce qu’un modèle capable de traiter des images pouvait accomplir. Pour la première fois, un modèle polyvalent — non un classificateur artisanal — pouvait examiner une photo quelconque et répondre à des questions à son sujet dans un langage fluide. Cette capacité unique — décrire n’importe quoi, puis répondre aux questions de suivi — s’est révélée être exactement ce qui manquait au domaine. En dix-huit mois, elle avait été intégrée aux téléphones, aux lunettes, aux lecteurs d’écran et aux cannes.

Ce guide passe en revue cette vague sur six fronts : les applications d’assistance visuelle, les dispositifs portables, les aides à la navigation, les lecteurs d’écran des systèmes d’exploitation, les avancées en matière de braille et de graphiques tactiles, et la couche web qui sous-tend l’ensemble. Tout au long, la question est la même que celle que nous posons pour tout nouvel outil : non pas « est-il impressionnant en démonstration ? » mais « une personne aveugle obtient-elle une réponse correcte et utile lorsqu’elle en a besoin ? » La réponse honnête, en 2026, est : « bien plus souvent qu’en 2022 — et pas encore assez souvent pour lui accorder une confiance aveugle. » Nous gardons les deux moitiés de cette phrase en vue.

Ce que « tient ses promesses » signifie ici

Nous considérons qu’un outil tient ses promesses lorsqu’il fournit une réponse sur laquelle une personne aveugle peut agir sans qu’une personne voyante doive la vérifier à nouveau. Le même critère que nous appliquons aux descriptions d’images par IA dans notre guide complémentaire sur l’état de la génération automatique de texte alternatif en 2026 s’applique ici : une phrase assurée mais erronée est pire qu’aucune phrase du tout.


2. La vision à la demande : les applications et les services

Le changement le plus important est aussi le moins visible : il réside dans des applications que les utilisateurs possédaient déjà. La catégorie s’est scindée en deux couches qui fonctionnent désormais ensemble — la description IA instantanée pour les questions courantes, et un interlocuteur humain en ligne pour les moments qui comptent vraiment. Les flux de travail les plus efficaces permettent à l’utilisateur de commencer avec le modèle et de passer à un être humain en une seule pression.

Les fiches ci-dessous décrivent le comportement pratique des cinq services qui dominent l’usage quotidien, et non leurs arguments marketing. La colonne « Le revers » est celle à lire en premier.

Be My AI
Be My Eyes · GPT-4 vision
Gratuit ; premier recours par défaut pour des millions d’utilisateurs
NouveautéL’IA décrit n’importe quelle photo, puis répond aux questions de suivi en conversation
EscaladeUne seule pression pour joindre un bénévole voyant quand l’IA ne suffit pas
Le reversHallucinations assurées ; ne pas utiliser pour les médicaments ou les situations à risque
Seeing AI
Microsoft · gratuit
Disponible sur Android fin 2023 après des années en exclusivité iOS
NouveautéDescriptions de scènes « enrichies » génératives et questions-réponses sur les documents, en plus de ses canaux classiques
Point fortLecture rapide de textes courts et de devises, possible hors connexion
Le reversLes descriptions enrichies héritent du même risque de fabrication que tout modèle
Aira
Aira · payant / accès subventionné
Agents professionnels formés, et non des bénévoles
NouveautéAccès gratuit subventionné dans les aéroports, campus et lieux de travail, étendu en 2024-2025
Point fortAide fiable et cohérente pour les tâches à enjeux élevés
Le reversLes minutes coûtent de l’argent en dehors des lieux subventionnés
Lookout
Google · gratuit (Android)
Conçu autour de la caméra du téléphone et de Gemini
Nouveauté« Poser une question sur une image » permet d’obtenir des réponses génératives sur une photo
Point fortIntégration étroite avec Android et TalkBack
Le reversAndroid uniquement ; la qualité varie selon l’éclairage et l’encombrement
Envision (Ally)
Envision · application + lunettes
L’application est gratuite ; les lunettes sont vendues séparément
Nouveauté« Ally », un assistant LLM conversationnel lancé en 2024, peut répondre à des questions ouvertes
Point fortExcellente lecture de documents ; même moteur sur le téléphone et les lunettes
Le reversL’expérience premium est conditionnée à l’achat du matériel

« Les flux de travail les plus efficaces permettent à l’utilisateur de commencer avec le modèle et de passer à un être humain en une seule pression — la machine pour la rapidité, l’humain pour le moment qui compte. »

— cet article, section 2

3. La caméra a migré vers le visage

Tenir un téléphone levé pour pointer sa caméra est faisable, mais cela mobilise une main et signale à l’entourage ce que l’on est en train de faire. Le changement matériel le plus important de la période a été de déplacer la caméra sur la tête, là où elle pointe dans la direction du regard de l’utilisateur et libère les deux mains. Deux facteurs ont rendu cela possible simultanément : des caméras portables bon marché et de qualité correcte, et un modèle suffisamment performant pour interpréter ce qu’elles capturent.

Le tournant décisif a eu lieu en novembre 2024, quand Meta a ajouté un mode pour les personnes aveugles à ses lunettes grand public Ray-Ban Meta via une intégration Be My Eyes — une fonctionnalité « Appeler un bénévole » qui diffuse le point de vue en première personne du porteur à un assistant voyant, aux côtés de l’IA propre de Meta qui peut décrire ce qui se trouve devant vous sur demande. Pour la première fois, le dispositif d’assistance était une paire de lunettes de soleil que les gens voulaient déjà porter, et non un appareillage médical voyant.

Ray-Ban Meta
Meta · lunettes grand public
Les premières lunettes d’apparence « normale » dotées d’un mode pour personnes aveugles
NouveautéBe My Eyes « Appeler un bénévole » + descriptions de scènes par IA sur demande, mains libres
Point fortSocialement discret ; coût faible par rapport aux dispositifs dédiés
Le reversPas conçu en priorité pour les personnes aveugles ; absence de détection d’obstacles
Envision Glasses
Envision · base Google Glass Enterprise
Conçues spécifiquement pour les utilisateurs aveugles et malvoyants
NouveautéL’assistant Ally intégré aux lunettes ; reconnaissance instantanée de texte, de scènes et de visages
Point fortLecture de texte imprimé et manuscrit parmi les meilleures du marché
Le reversCoût bien supérieur aux lunettes grand public ; base matérielle vieillissante
OrCam MyEye
OrCam · caméra à clipser
Une caméra de la taille d’un doigt qui se fixe sur n’importe quelle monture
NouveautéLecture et reconnaissance embarquées avec commande vocale « lecture intelligente »
Point fortFonctionne hors connexion ; instantané, privé, sans téléphone
Le reversPrix premium ; moins polyvalent qu’un assistant IA ouvert
biped NOA
biped.ai · gilet portable
Capteurs de voiture autonome adaptés aux piétons
NouveautéPrédit les collisions et avertit par son spatial 3D ; « Live AI » décrit l’environnement en temps réel pendant la marche
Point fortConscience continue des obstacles, et non seulement une description à la demande
Le reversComplément à la canne et au chien, jamais un substitut
La description n’est pas la navigation

Des lunettes qui décrivent une scène excellent à répondre à « qu’est-ce que c’est ? » et sont totalement inutiles pour « y a-t-il une marche devant moi ? » La description de scène et l’évitement d’obstacles sont deux fonctions distinctes qui nécessitent des capteurs différents. Tous les fabricants sérieux de cette catégorie affirment la même chose : le dispositif vient en complément de la canne blanche ou du chien guide, non à leur place.


4. Savoir où l’on se trouve

La navigation est le problème le plus difficile du domaine, car le coût d’une mauvaise réponse peut être un trottoir, une cage d’escalier ou une route. La période a produit de réels progrès sur deux sous-problèmes distincts : détecter ce qui se trouve immédiatement autour de soi, et se repérer dans un bâtiment où le GPS n’est plus disponible.

1

WeWALK Smart Cane 2

Une mise à jour 2024 de la canne connectée qui fixe une poignée sensorielle sur une canne blanche ordinaire. Elle détecte les obstacles à hauteur de poitrine et de tête que le balayage de la canne ne perçoit pas — branches qui surplombent, portes de placard ouvertes, rétroviseurs de camion — et prévient par vibration. La deuxième génération a élargi l’angle de détection, ajouté un assistant vocal IA intégré (fonctionnant sur GPT-4), une meilleure intégration à la navigation et aux transports en commun, et a reçu un Edison Award ainsi qu’un King’s Award for Enterprise Innovation. L’essentiel : elle conserve la canne — l’outil éprouvé reste, la détection vient en supplément.

2

Glidance Glide

Le facteur de forme le plus véritablement nouveau de la période. Glide est un petit appareil à deux roues créé par une entreprise fondée par Amos Miller, ancien technologue de l’accessibilité chez Microsoft. Il suffit de le pousser vers l’avant : il roule devant soi, guidant physiquement l’utilisateur — contournant les obstacles et communiquant via la poignée télescopique, quelque part entre une canne blanche et un chien guide. Sa première série de précommandes a ouvert mi-2024 et était épuisée avant la fin de l’année ; l’appareil est vendu avec un abonnement mensuel d’environ 30 USD, et les premières livraisons ont débuté en 2026. C’est encore tôt, et c’est le dispositif qui mérite le plus d’être suivi.

3

GoodMaps navigation intérieure

La navigation extérieure virage par virage fonctionne depuis des années ; en intérieur, là où le GPS est inopérant, ce n’est pas le cas. GoodMaps utilise un positionnement par caméra pour situer un utilisateur dans un bâtiment cartographié — un aéroport, un nœud de transit, un campus — et lui fournit des instructions pas à pas sans les balises qu’exigeaient les systèmes antérieurs. La couverture reste la limite : le système ne fonctionne que là où un établissement a payé pour être cartographié.

4

Apple Door Detection et Magnifier

L’aide à la navigation que la plupart des gens possèdent déjà. Le mode Détection de l’application Magnifier repère les portes, lit leur signalétique et indique si elles sont ouvertes et comment les ouvrir, en utilisant le scanner LiDAR des iPhone et iPad Pro. La détection de personnes mesure la distance aux personnes à proximité, et VoiceOver Recognition décrit les objets et les scènes en local sur l’appareil. Rien de tout cela ne nécessite d’abonnement ni de matériel supplémentaire — tout est fourni d’emblée.

« Le coût d’une mauvaise réponse en navigation n’est pas une phrase maladroite — c’est un trottoir, une cage d’escalier ou une route. C’est pourquoi tous les fabricants sérieux maintiennent la canne dans la boucle. »

— cet article, section 4

5. Les systèmes d’exploitation ont rattrapé leur retard

La révolution la plus discrète s’est produite à l’intérieur du lecteur d’écran. Pendant des années, l’obstacle que rencontrait le plus souvent une personne aveugle était l’image sans description — une photo, un graphique, un mème sans texte alternatif. Entre 2024 et 2026, toutes les grandes plates-formes ont lancé une réponse intégrée : pointer le lecteur d’écran sur une image, et un modèle embarqué la décrit, puis accepte des questions de suivi. Ce qui nécessitait autrefois une application tierce se fait désormais en une seule frappe.

Le tableau ci-dessous compare les résultats de chaque plate-forme. Le schéma est cohérent — description IA des images partout, compréhension de scène en direct la plus poussée sur mobile, support braille approfondi récemment sur Apple — mais les détails déterminent quel outil convient à quel utilisateur. Pour les méthodologies et outils de test, notre guide des outils de test des lecteurs d’écran va plus loin, et la norme de référence est les WCAG 2.2.

Lecteur d’écranDescription IA des imagesScène caméra en directNouveauté 2025Coût
VoiceOver + Magnifier (Apple)VoiceOver Recognition (en local)Door & People DetectionBraille Access, Accessibility Reader, Magnifier pour MacIntégré
TalkBack + Gemini (Android)Gemini décrit & répond aux questionsvia LookoutQuestions-réponses Gemini approfondies sur les images et l’écran entierIntégré
JAWS (Windows)Picture Smart AI (ChatGPT, Claude)N/A (bureau)Picture Smart plus rapide, questions-réponses de suiviLicence payante
NVDA (Windows)Modules complémentaires communautaires (GPT-4 vision)N/A (bureau)Écosystème de modules complémentaires en maturationGratuit + module

La vague Apple de mai 2025 mérite une mention particulière, car elle a élargi la définition même de l’accessibilité. Braille Access transforme un iPhone, iPad, Mac ou Vision Pro en bloc-notes braille complet qui communique nativement avec un afficheur braille actualisable. Accessibility Reader est un mode de lecture à l’échelle du système pour les utilisateurs malvoyants et dyslexiques. Accessibility Nutrition Labels affichent les fonctionnalités d’accessibilité d’une application directement sur sa page App Store, permettant à une personne aveugle de savoir avant le téléchargement si l’application lui sera accessible — une incitation structurelle qui pousse chaque développeur à mieux faire.

Une fonctionnalité antérieure mérite également d’être mentionnée ici : Personal Voice, qui permet à quelqu’un d’enregistrer et de synthétiser un modèle de sa propre voix. Elle a été conçue pour les personnes en train de perdre la parole, mais elle préfigure un avenir plus large où la voix de synthèse dans l’oreille d’une personne aveugle pourra être une voix qu’elle aura réellement choisie.


6. Lire par le toucher a enfin obtenu un graphique

Au milieu de tout ce déferlement d’IA, la percée la plus attendue était mécanique. Les afficheurs braille actualisables n’affichaient qu’une seule ligne de texte depuis des décennies — parfait pour la prose, totalement inadapté à un manuel de mathématiques, à une carte ou à un graphique. Le rêve d’une page entière de braille dynamique et de graphiques tactiles avait un nom dans le domaine, « Holy Braille », et il est resté un rêve pendant des années.

En 2024, il est devenu réalité. Le Monarch, fruit d’un partenariat entre l’American Printing House for the Blind (APH) et HumanWare, est le premier appareil grand public à afficher dix lignes de braille et des graphiques tactiles sur la même surface actualisable — permettant à un élève de sentir un graphique à barres, un diagramme de géométrie ou une carte et d’en lire les étiquettes braille simultanément. Il fonctionne sous Android, importe des fichiers de graphiques tactiles et prend en charge le format eBraille multiligne émergent. Le prix est élevé, de l’ordre de cinq chiffres, ce qui explique qu’il parvienne principalement aux élèves par le biais de financements institutionnels plutôt qu’à des particuliers. Le Dot Pad coréen, un afficheur tactile à matrice de points pris en charge nativement par Apple, s’attaque au même problème du côté grand public. Pour le marché plus large, consultez notre guide d’achat des afficheurs braille actualisables.

Pourquoi un graphique tactile est important

Un élève aveugle peut écouter la description d’une parabole, mais il ne peut pas l’explorer comme un élève voyant trace une courbe des yeux. Les graphiques tactiles multilignes restituent cette exploration. La conséquence éducative — en particulier pour les filières scientifiques, où le domaine a perdu des générations de talents à cause de diagrammes inaccessibles — est bien plus grande que le nombre d’appareils ne le laisse supposer.


7. Le revers de la médaille : ce qui reste défaillant

Chaque section ci-dessus comportait une ligne « Le revers » pour une bonne raison. Les progrès sont réels, mais un guide qui ne vendrait que le bon côté des choses rendrait un mauvais service à ses lecteurs. Quatre limitations traversent l’ensemble du paysage, et tout acheteur honnête devrait les peser avant de céder au marketing.

1

Hallucination assurée

Chaque outil de description par IA présenté ici décrira parfois quelque chose qui n’est pas là — un prix erroné, une étiquette qu’il ne pouvait pas lire mais qu’il a devinée, une date de péremption inventée. Il le fait sur le même ton fluide et assuré qu’il emploie lorsqu’il a raison. Pour les questions courantes, cela est tolérable ; pour les médicaments, les allergènes, les documents financiers ou tout ce qui touche à la sécurité, la seule règle sûre est de vérifier auprès d’un être humain ou d’une source non-IA de confiance. Le modèle rédige ; il n’a pas le dernier mot.

2

Le prix des bons outils

Le niveau gratuit est véritablement transformateur — Be My AI, Seeing AI, Lookout et les fonctionnalités intégrées des lecteurs d’écran ne coûtent rien. Mais le matériel dédié qui en fait davantage, ou qui fonctionne mains libres, ou qui lit par le toucher, se chiffre en centaines voire en milliers d’euros. Un Monarch est un appareil à cinq chiffres. Il en résulte un écart croissant entre ce qui est théoriquement possible et ce qu’un particulier sans financement institutionnel peut réellement se permettre.

3

La caméra voit toujours

Un dispositif qui diffuse le point de vue en première personne à un modèle cloud ou à un bénévole diffuse également tout le reste dans le cadre — les personnes autour de soi, les documents sur son bureau, l’intérieur de son domicile. Ce compromis sur la vie privée est réel et largement non réglementé, et il pèse le plus lourdement sur les utilisateurs qui ont le moins le choix d’y consentir. Une bonne conception minimise ce qui quitte l’appareil ; toute conception n’est pas bonne.

4

Les outils ne remplacent pas la formation

Aucune application ne remplace une instruction en orientation et mobilité, et aucun capteur ne remplace la canne blanche ou le chien guide pour détecter le sol. Le danger d’un assistant très performant est la fausse confiance qu’il peut créer. Les dispositifs qui réussissent sont ceux qui sont conçus comme des ajouts aux compétences éprouvées, et non comme des substituts — ce qui explique pourquoi la canne revient dans chaque section de ce guide.

Le web reste le maillon faible

Toute cette intelligence d’assistance fonctionne sur un web qui reste majoritairement inaccessible. Un lecteur d’écran IA peut décrire une image, mais il ne peut pas corriger un bouton sans intitulé, un formulaire qui piège le focus ou un processus de paiement qui plante sous un lecteur d’écran. Les outils ont progressé plus vite que les sites web. Avant de supposer que votre propre site suit le rythme, faites-le passer par une analyse d’accessibilité gratuite — et traitez avec la plus grande méfiance les surcouches IA qui promettent une conformité instantanée.


Conclusion : le plafond s’est élevé, le plancher a tenu

Formulé honnêtement, le bilan de 2023 à 2026 est que le plafond s’est élevé considérablement et que le plancher a à peine bougé. Une personne aveugle en 2026 peut faire des choses qui relevaient de la science-fiction en 2022 — demander à une paire de lunettes ce qui est écrit sur un menu, sentir un graphique se mettre à jour sous ses doigts, obtenir la description de n’importe quelle photo en une seule frappe. C’est un véritable élargissement de l’autonomie, qui est arrivé plus vite que quiconque dans le domaine ne l’avait prévu.

Mais le plancher — les choses qui doivent être justes à chaque fois — a tenu bon. Un modèle hallucine encore. Une caméra voit encore trop. Une excellente application ne peut toujours pas corriger un site web défaillant ni remplacer un instructeur en mobilité. La maturité de ce moment ne réside pas dans les démonstrations ; elle réside dans le fait de savoir exactement quel outil approuver pour quelle tâche, et lequel vérifier à nouveau. Les meilleurs praticiens et utilisateurs raisonnent déjà ainsi : la machine pour la rapidité, l’humain pour le moment qui compte, et la canne dans la main en permanence.

Les trois prochaines années seront jugées sur le plancher, et non sur le plafond. Si les taux d’hallucination diminuent, si le bon matériel devient moins cher et si le web en dessous rattrape enfin les technologies d’assistance qui reposent dessus, l’écart entre ce qui est possible et ce qui est fiable se réduira. En attendant, la règle qui traverse chaque section de ce guide demeure : les outils constituent une ébauche remarquable de la vision à la demande — et c’est l’utilisateur, non le modèle, qui a le dernier mot.

« Le plafond s’est élevé considérablement et le plancher a à peine bougé. La maturité, c’est savoir quel outil approuver pour quelle tâche — et lequel vérifier à nouveau. »

— cet article, conclusion