La vision à la demande
les trois années qui ont transformé la vie des personnes aveugles et malvoyantes

Entre 2023 et 2026, les outils utilisés au quotidien par les personnes aveugles et malvoyantes ont cessé d’être un lent filet d’appareils à usage unique pour devenir une vague d’IA polyvalente. Un téléphone peut désormais décrire une pièce, une paire de lunettes d’apparence ordinaire peut appeler un bénévole, et un afficheur braille peut enfin représenter un graphique. Ce guide cartographie ce qui a réellement été mis sur le marché, qui le fabrique, et — tout aussi important — où chaque outil reste encore défaillant.

Mar 2023

GPT-4 vision lancé avec Be My Eyes comme partenaire fondateur

Nov 2024

Les lunettes Ray-Ban Meta ont reçu un mode pour les personnes aveugles

10 lignes

premier afficheur braille et graphique tactile multiligne grand public

Par La cellule ingénierie de Disability World

13 min de lecture

Mis à jour en mai 2026

Fondements

1. Ce qui a réellement changé

Durant la majeure partie de l’ère des smartphones, les technologies d’assistance dont dépendait une personne aveugle se déclinaient en deux grandes catégories. Il y avait les appareils étroits, coûteux et à usage unique — une caméra de lecture de texte, un identificateur de couleurs, un GPS doté d’une voix maladroite — et il y avait les applications qui vous mettaient en contact avec un être humain, parce qu’aucune machine ne pouvait décrire de manière fiable le monde visuel encombré. La première catégorie était onéreuse et fragile. La seconde fonctionnait, mais cela impliquait de solliciter quelqu’un chaque fois que l’on voulait savoir si le lait avait expiré.

Le tournant est survenu en mars 2023, quand OpenAI a annoncé GPT-4 en choisissant l’application pour personnes aveugles Be My Eyes comme démonstration phare de ce qu’un modèle capable de traiter des images pouvait accomplir. Pour la première fois, un modèle polyvalent — non un classificateur artisanal — pouvait examiner une photo quelconque et répondre à des questions à son sujet dans un langage fluide. Cette capacité unique — décrire n’importe quoi, puis répondre aux questions de suivi — s’est révélée être exactement ce qui manquait au domaine. En dix-huit mois, elle avait été intégrée aux téléphones, aux lunettes, aux lecteurs d’écran et aux cannes.

Ce guide passe en revue cette vague sur six fronts : les applications d’assistance visuelle, les dispositifs portables, les aides à la navigation, les lecteurs d’écran des systèmes d’exploitation, les avancées en matière de braille et de graphiques tactiles, et la couche web qui sous-tend l’ensemble. Tout au long, la question est la même que celle que nous posons pour tout nouvel outil : non pas « est-il impressionnant en démonstration ? » mais « une personne aveugle obtient-elle une réponse correcte et utile lorsqu’elle en a besoin ? » La réponse honnête, en 2026, est : « bien plus souvent qu’en 2022 — et pas encore assez souvent pour lui accorder une confiance aveugle. » Nous gardons les deux moitiés de cette phrase en vue.

Ce que « tient ses promesses » signifie ici

Nous considérons qu’un outil tient ses promesses lorsqu’il fournit une réponse sur laquelle une personne aveugle peut agir sans qu’une personne voyante doive la vérifier à nouveau. Le même critère que nous appliquons aux descriptions d’images par IA dans notre guide complémentaire sur l’état de la génération automatique de texte alternatif en 2026 s’applique ici : une phrase assurée mais erronée est pire qu’aucune phrase du tout.

Paysage

2. La vision à la demande : les applications et les services

Le changement le plus important est aussi le moins visible : il réside dans des applications que les utilisateurs possédaient déjà. La catégorie s’est scindée en deux couches qui fonctionnent désormais ensemble — la description IA instantanée pour les questions courantes, et un interlocuteur humain en ligne pour les moments qui comptent vraiment. Les flux de travail les plus efficaces permettent à l’utilisateur de commencer avec le modèle et de passer à un être humain en une seule pression.

Les fiches ci-dessous décrivent le comportement pratique des cinq services qui dominent l’usage quotidien, et non leurs arguments marketing. La colonne « Le revers » est celle à lire en premier.

Gratuit ; premier recours par défaut pour des millions d’utilisateurs

NouveautéL’IA décrit n’importe quelle photo, puis répond aux questions de suivi en conversation

EscaladeUne seule pression pour joindre un bénévole voyant quand l’IA ne suffit pas

Le reversHallucinations assurées ; ne pas utiliser pour les médicaments ou les situations à risque

Disponible sur Android fin 2023 après des années en exclusivité iOS

NouveautéDescriptions de scènes « enrichies » génératives et questions-réponses sur les documents, en plus de ses canaux classiques

Point fortLecture rapide de textes courts et de devises, possible hors connexion

Le reversLes descriptions enrichies héritent du même risque de fabrication que tout modèle

Agents professionnels formés, et non des bénévoles

NouveautéAccès gratuit subventionné dans les aéroports, campus et lieux de travail, étendu en 2024-2025

Point fortAide fiable et cohérente pour les tâches à enjeux élevés

Le reversLes minutes coûtent de l’argent en dehors des lieux subventionnés

Conçu autour de la caméra du téléphone et de Gemini

Nouveauté« Poser une question sur une image » permet d’obtenir des réponses génératives sur une photo

Point fortIntégration étroite avec Android et TalkBack

Le reversAndroid uniquement ; la qualité varie selon l’éclairage et l’encombrement

L’application est gratuite ; les lunettes sont vendues séparément

Nouveauté« Ally », un assistant LLM conversationnel lancé en 2024, peut répondre à des questions ouvertes

Point fortExcellente lecture de documents ; même moteur sur le téléphone et les lunettes

Le reversL’expérience premium est conditionnée à l’achat du matériel

« Les flux de travail les plus efficaces permettent à l’utilisateur de commencer avec le modèle et de passer à un être humain en une seule pression — la machine pour la rapidité, l’humain pour le moment qui compte. »

— cet article, section 2

Matériel

3. La caméra a migré vers le visage

Tenir un téléphone levé pour pointer sa caméra est faisable, mais cela mobilise une main et signale à l’entourage ce que l’on est en train de faire. Le changement matériel le plus important de la période a été de déplacer la caméra sur la tête, là où elle pointe dans la direction du regard de l’utilisateur et libère les deux mains. Deux facteurs ont rendu cela possible simultanément : des caméras portables bon marché et de qualité correcte, et un modèle suffisamment performant pour interpréter ce qu’elles capturent.

Le tournant décisif a eu lieu en novembre 2024, quand Meta a ajouté un mode pour les personnes aveugles à ses lunettes grand public Ray-Ban Meta via une intégration Be My Eyes — une fonctionnalité « Appeler un bénévole » qui diffuse le point de vue en première personne du porteur à un assistant voyant, aux côtés de l’IA propre de Meta qui peut décrire ce qui se trouve devant vous sur demande. Pour la première fois, le dispositif d’assistance était une paire de lunettes de soleil que les gens voulaient déjà porter, et non un appareillage médical voyant.

Les premières lunettes d’apparence « normale » dotées d’un mode pour personnes aveugles

NouveautéBe My Eyes « Appeler un bénévole » + descriptions de scènes par IA sur demande, mains libres

Point fortSocialement discret ; coût faible par rapport aux dispositifs dédiés

Le reversPas conçu en priorité pour les personnes aveugles ; absence de détection d’obstacles

Conçues spécifiquement pour les utilisateurs aveugles et malvoyants

NouveautéL’assistant Ally intégré aux lunettes ; reconnaissance instantanée de texte, de scènes et de visages

Point fortLecture de texte imprimé et manuscrit parmi les meilleures du marché

Le reversCoût bien supérieur aux lunettes grand public ; base matérielle vieillissante

Une caméra de la taille d’un doigt qui se fixe sur n’importe quelle monture

NouveautéLecture et reconnaissance embarquées avec commande vocale « lecture intelligente »

Point fortFonctionne hors connexion ; instantané, privé, sans téléphone

Le reversPrix premium ; moins polyvalent qu’un assistant IA ouvert

Capteurs de voiture autonome adaptés aux piétons

NouveautéPrédit les collisions et avertit par son spatial 3D ; « Live AI » décrit l’environnement en temps réel pendant la marche

Point fortConscience continue des obstacles, et non seulement une description à la demande

Le reversComplément à la canne et au chien, jamais un substitut

La description n’est pas la navigation

Des lunettes qui décrivent une scène excellent à répondre à « qu’est-ce que c’est ? » et sont totalement inutiles pour « y a-t-il une marche devant moi ? » La description de scène et l’évitement d’obstacles sont deux fonctions distinctes qui nécessitent des capteurs différents. Tous les fabricants sérieux de cette catégorie affirment la même chose : le dispositif vient en complément de la canne blanche ou du chien guide, non à leur place.

Mobilité

4. Savoir où l’on se trouve

La navigation est le problème le plus difficile du domaine, car le coût d’une mauvaise réponse peut être un trottoir, une cage d’escalier ou une route. La période a produit de réels progrès sur deux sous-problèmes distincts : détecter ce qui se trouve immédiatement autour de soi, et se repérer dans un bâtiment où le GPS n’est plus disponible.

WeWALK Smart Cane 2

Une mise à jour 2024 de la canne connectée qui fixe une poignée sensorielle sur une canne blanche ordinaire. Elle détecte les obstacles à hauteur de poitrine et de tête que le balayage de la canne ne perçoit pas — branches qui surplombent, portes de placard ouvertes, rétroviseurs de camion — et prévient par vibration. La deuxième génération a élargi l’angle de détection, ajouté un assistant vocal IA intégré (fonctionnant sur GPT-4), une meilleure intégration à la navigation et aux transports en commun, et a reçu un Edison Award ainsi qu’un King’s Award for Enterprise Innovation. L’essentiel : elle conserve la canne — l’outil éprouvé reste, la détection vient en supplément.

Glidance Glide

Le facteur de forme le plus véritablement nouveau de la période. Glide est un petit appareil à deux roues créé par une entreprise fondée par Amos Miller, ancien technologue de l’accessibilité chez Microsoft. Il suffit de le pousser vers l’avant : il roule devant soi, guidant physiquement l’utilisateur — contournant les obstacles et communiquant via la poignée télescopique, quelque part entre une canne blanche et un chien guide. Sa première série de précommandes a ouvert mi-2024 et était épuisée avant la fin de l’année ; l’appareil est vendu avec un abonnement mensuel d’environ 30 USD, et les premières livraisons ont débuté en 2026. C’est encore tôt, et c’est le dispositif qui mérite le plus d’être suivi.

GoodMaps navigation intérieure

La navigation extérieure virage par virage fonctionne depuis des années ; en intérieur, là où le GPS est inopérant, ce n’est pas le cas. GoodMaps utilise un positionnement par caméra pour situer un utilisateur dans un bâtiment cartographié — un aéroport, un nœud de transit, un campus — et lui fournit des instructions pas à pas sans les balises qu’exigeaient les systèmes antérieurs. La couverture reste la limite : le système ne fonctionne que là où un établissement a payé pour être cartographié.

Apple Door Detection et Magnifier

L’aide à la navigation que la plupart des gens possèdent déjà. Le mode Détection de l’application Magnifier repère les portes, lit leur signalétique et indique si elles sont ouvertes et comment les ouvrir, en utilisant le scanner LiDAR des iPhone et iPad Pro. La détection de personnes mesure la distance aux personnes à proximité, et VoiceOver Recognition décrit les objets et les scènes en local sur l’appareil. Rien de tout cela ne nécessite d’abonnement ni de matériel supplémentaire — tout est fourni d’emblée.

« Le coût d’une mauvaise réponse en navigation n’est pas une phrase maladroite — c’est un trottoir, une cage d’escalier ou une route. C’est pourquoi tous les fabricants sérieux maintiennent la canne dans la boucle. »

— cet article, section 4

Plate-forme

5. Les systèmes d’exploitation ont rattrapé leur retard

La révolution la plus discrète s’est produite à l’intérieur du lecteur d’écran. Pendant des années, l’obstacle que rencontrait le plus souvent une personne aveugle était l’image sans description — une photo, un graphique, un mème sans texte alternatif. Entre 2024 et 2026, toutes les grandes plates-formes ont lancé une réponse intégrée : pointer le lecteur d’écran sur une image, et un modèle embarqué la décrit, puis accepte des questions de suivi. Ce qui nécessitait autrefois une application tierce se fait désormais en une seule frappe.

Le tableau ci-dessous compare les résultats de chaque plate-forme. Le schéma est cohérent — description IA des images partout, compréhension de scène en direct la plus poussée sur mobile, support braille approfondi récemment sur Apple — mais les détails déterminent quel outil convient à quel utilisateur. Pour les méthodologies et outils de test, notre guide des outils de test des lecteurs d’écran va plus loin, et la norme de référence est les WCAG 2.2.

Lecteur d’écran	Description IA des images	Scène caméra en direct	Nouveauté 2025	Coût
VoiceOver + Magnifier (Apple)	VoiceOver Recognition (en local)	Door & People Detection	Braille Access, Accessibility Reader, Magnifier pour Mac	Intégré
TalkBack + Gemini (Android)	Gemini décrit & répond aux questions	via Lookout	Questions-réponses Gemini approfondies sur les images et l’écran entier	Intégré
JAWS (Windows)	Picture Smart AI (ChatGPT, Claude)	N/A (bureau)	Picture Smart plus rapide, questions-réponses de suivi	Licence payante
NVDA (Windows)	Modules complémentaires communautaires (GPT-4 vision)	N/A (bureau)	Écosystème de modules complémentaires en maturation	Gratuit + module

La vague Apple de mai 2025 mérite une mention particulière, car elle a élargi la définition même de l’accessibilité. Braille Access transforme un iPhone, iPad, Mac ou Vision Pro en bloc-notes braille complet qui communique nativement avec un afficheur braille actualisable. Accessibility Reader est un mode de lecture à l’échelle du système pour les utilisateurs malvoyants et dyslexiques. Accessibility Nutrition Labels affichent les fonctionnalités d’accessibilité d’une application directement sur sa page App Store, permettant à une personne aveugle de savoir avant le téléchargement si l’application lui sera accessible — une incitation structurelle qui pousse chaque développeur à mieux faire.

Une fonctionnalité antérieure mérite également d’être mentionnée ici : Personal Voice, qui permet à quelqu’un d’enregistrer et de synthétiser un modèle de sa propre voix. Elle a été conçue pour les personnes en train de perdre la parole, mais elle préfigure un avenir plus large où la voix de synthèse dans l’oreille d’une personne aveugle pourra être une voix qu’elle aura réellement choisie.

Toucher

6. Lire par le toucher a enfin obtenu un graphique

Au milieu de tout ce déferlement d’IA, la percée la plus attendue était mécanique. Les afficheurs braille actualisables n’affichaient qu’une seule ligne de texte depuis des décennies — parfait pour la prose, totalement inadapté à un manuel de mathématiques, à une carte ou à un graphique. Le rêve d’une page entière de braille dynamique et de graphiques tactiles avait un nom dans le domaine, « Holy Braille », et il est resté un rêve pendant des années.

En 2024, il est devenu réalité. Le Monarch, fruit d’un partenariat entre l’American Printing House for the Blind (APH) et HumanWare, est le premier appareil grand public à afficher dix lignes de braille et des graphiques tactiles sur la même surface actualisable — permettant à un élève de sentir un graphique à barres, un diagramme de géométrie ou une carte et d’en lire les étiquettes braille simultanément. Il fonctionne sous Android, importe des fichiers de graphiques tactiles et prend en charge le format eBraille multiligne émergent. Le prix est élevé, de l’ordre de cinq chiffres, ce qui explique qu’il parvienne principalement aux élèves par le biais de financements institutionnels plutôt qu’à des particuliers. Le Dot Pad coréen, un afficheur tactile à matrice de points pris en charge nativement par Apple, s’attaque au même problème du côté grand public. Pour le marché plus large, consultez notre guide d’achat des afficheurs braille actualisables.

Pourquoi un graphique tactile est important

Un élève aveugle peut écouter la description d’une parabole, mais il ne peut pas l’explorer comme un élève voyant trace une courbe des yeux. Les graphiques tactiles multilignes restituent cette exploration. La conséquence éducative — en particulier pour les filières scientifiques, où le domaine a perdu des générations de talents à cause de diagrammes inaccessibles — est bien plus grande que le nombre d’appareils ne le laisse supposer.

Diagnostics

7. Le revers de la médaille : ce qui reste défaillant

Chaque section ci-dessus comportait une ligne « Le revers » pour une bonne raison. Les progrès sont réels, mais un guide qui ne vendrait que le bon côté des choses rendrait un mauvais service à ses lecteurs. Quatre limitations traversent l’ensemble du paysage, et tout acheteur honnête devrait les peser avant de céder au marketing.

Hallucination assurée

Chaque outil de description par IA présenté ici décrira parfois quelque chose qui n’est pas là — un prix erroné, une étiquette qu’il ne pouvait pas lire mais qu’il a devinée, une date de péremption inventée. Il le fait sur le même ton fluide et assuré qu’il emploie lorsqu’il a raison. Pour les questions courantes, cela est tolérable ; pour les médicaments, les allergènes, les documents financiers ou tout ce qui touche à la sécurité, la seule règle sûre est de vérifier auprès d’un être humain ou d’une source non-IA de confiance. Le modèle rédige ; il n’a pas le dernier mot.

Le prix des bons outils

Le niveau gratuit est véritablement transformateur — Be My AI, Seeing AI, Lookout et les fonctionnalités intégrées des lecteurs d’écran ne coûtent rien. Mais le matériel dédié qui en fait davantage, ou qui fonctionne mains libres, ou qui lit par le toucher, se chiffre en centaines voire en milliers d’euros. Un Monarch est un appareil à cinq chiffres. Il en résulte un écart croissant entre ce qui est théoriquement possible et ce qu’un particulier sans financement institutionnel peut réellement se permettre.

La caméra voit toujours

Un dispositif qui diffuse le point de vue en première personne à un modèle cloud ou à un bénévole diffuse également tout le reste dans le cadre — les personnes autour de soi, les documents sur son bureau, l’intérieur de son domicile. Ce compromis sur la vie privée est réel et largement non réglementé, et il pèse le plus lourdement sur les utilisateurs qui ont le moins le choix d’y consentir. Une bonne conception minimise ce qui quitte l’appareil ; toute conception n’est pas bonne.

Les outils ne remplacent pas la formation

Aucune application ne remplace une instruction en orientation et mobilité, et aucun capteur ne remplace la canne blanche ou le chien guide pour détecter le sol. Le danger d’un assistant très performant est la fausse confiance qu’il peut créer. Les dispositifs qui réussissent sont ceux qui sont conçus comme des ajouts aux compétences éprouvées, et non comme des substituts — ce qui explique pourquoi la canne revient dans chaque section de ce guide.

Le web reste le maillon faible

Toute cette intelligence d’assistance fonctionne sur un web qui reste majoritairement inaccessible. Un lecteur d’écran IA peut décrire une image, mais il ne peut pas corriger un bouton sans intitulé, un formulaire qui piège le focus ou un processus de paiement qui plante sous un lecteur d’écran. Les outils ont progressé plus vite que les sites web. Avant de supposer que votre propre site suit le rythme, faites-le passer par une analyse d’accessibilité gratuite — et traitez avec la plus grande méfiance les surcouches IA qui promettent une conformité instantanée.

Conclusion : le plafond s’est élevé, le plancher a tenu

Formulé honnêtement, le bilan de 2023 à 2026 est que le plafond s’est élevé considérablement et que le plancher a à peine bougé. Une personne aveugle en 2026 peut faire des choses qui relevaient de la science-fiction en 2022 — demander à une paire de lunettes ce qui est écrit sur un menu, sentir un graphique se mettre à jour sous ses doigts, obtenir la description de n’importe quelle photo en une seule frappe. C’est un véritable élargissement de l’autonomie, qui est arrivé plus vite que quiconque dans le domaine ne l’avait prévu.

Mais le plancher — les choses qui doivent être justes à chaque fois — a tenu bon. Un modèle hallucine encore. Une caméra voit encore trop. Une excellente application ne peut toujours pas corriger un site web défaillant ni remplacer un instructeur en mobilité. La maturité de ce moment ne réside pas dans les démonstrations ; elle réside dans le fait de savoir exactement quel outil approuver pour quelle tâche, et lequel vérifier à nouveau. Les meilleurs praticiens et utilisateurs raisonnent déjà ainsi : la machine pour la rapidité, l’humain pour le moment qui compte, et la canne dans la main en permanence.

Les trois prochaines années seront jugées sur le plancher, et non sur le plafond. Si les taux d’hallucination diminuent, si le bon matériel devient moins cher et si le web en dessous rattrape enfin les technologies d’assistance qui reposent dessus, l’écart entre ce qui est possible et ce qui est fiable se réduira. En attendant, la règle qui traverse chaque section de ce guide demeure : les outils constituent une ébauche remarquable de la vision à la demande — et c’est l’utilisateur, non le modèle, qui a le dernier mot.

« Le plafond s’est élevé considérablement et le plancher a à peine bougé. La maturité, c’est savoir quel outil approuver pour quelle tâche — et lequel vérifier à nouveau. »

— cet article, conclusion

La vision à la demande les trois années qui ont transformé la vie des personnes aveugles et malvoyantes