Vista su richiesta
i tre anni che hanno trasformato la vita dei ciechi e degli ipovedenti

Tra il 2023 e il 2026, gli strumenti usati quotidianamente dalle persone cieche e ipovedenti hanno smesso di essere un lento filo di dispositivi mono-funzione e sono diventati un’ondata di AI general purpose. Un telefono può ora leggere un’intera stanza, un paio di occhiali da sole dall’aspetto normale può chiamare un volontario e un display braille può finalmente mostrare un grafico. Questo primer mappa ciò che è davvero arrivato sul mercato, chi lo produce e — altrettanto importante — dove ognuno ancora fallisce.

Mar 2023

GPT-4 vision lanciato con Be My Eyes come partner inaugurale

Nov 2024

Gli occhiali Ray-Ban Meta hanno acquisito una modalità per utenti ciechi

10 righe

primo display braille multilinea e di grafica tattile mainstream

A cura del desk tecnico di Disability World

13 min di lettura

Aggiornato maggio 2026

Fondamento

1. Cosa è davvero cambiato

Per la maggior parte dell’era smartphone, la tecnologia assistiva su cui facevano affidamento le persone cieche si presentava in due varianti. C’erano dispositivi costosi, specializzati, mono-funzione — una fotocamera per leggere i testi, un identificatore di colori, un’unità GPS con una voce macchinosa — e c’erano app che mettevano in contatto con un essere umano, perché nessuna macchina era in grado di descrivere in modo affidabile il mondo visivo disordinato. La prima variante era costosa e fragile. La seconda funzionava, ma significava chiedere a un’altra persona ogni volta che si voleva sapere se il latte era scaduto.

La svolta è arrivata nel marzo 2023, quando OpenAI ha annunciato GPT-4 e ha usato l’app per ciechi Be My Eyes come dimostrazione emblematica di ciò che un modello con capacità visive poteva fare. Per la prima volta un modello general purpose, non un classificatore costruito a mano, era in grado di osservare una foto qualsiasi e rispondere a domande in merito in un linguaggio fluente. Quella singola capacità — descrivere qualsiasi cosa, poi rispondere alle domande di approfondimento — si è rivelata essere esattamente ciò che mancava al settore. Nel giro di diciotto mesi era stata integrata in telefoni, occhiali, screen reader e cani da guida smart.

Questo primer passa in rassegna quell’ondata su sei fronti: le app di assistenza visiva, i dispositivi indossabili, gli ausili per la navigazione, gli screen reader dei sistemi operativi, le innovazioni braille e tattili, e il livello web che sta alla base di tutto. In tutto, la domanda è la stessa che si pone a qualsiasi nuovo strumento: non «è impressionante in una demo?» ma «una persona cieca ottiene una risposta corretta e utile quando ne ha bisogno?» La risposta onesta, nel 2026, è «molto più spesso che nel 2022 — e ancora non abbastanza da fidarsi ciecamente». Teniamo entrambe le metà di questa frase in vista.

Cosa significa «funziona» in questo contesto

Trattiamo uno strumento come efficace quando restituisce una risposta su cui un utente cieco può agire senza che una persona vedente la ricontrolli. Lo stesso criterio che applichiamo alle descrizioni AI delle immagini nel nostro primer complementare su dove il testo alternativo AI funziona davvero nel 2026 vale anche qui: una frase formulata con sicurezza ma sbagliata è peggio di nessuna frase.

Panorama

2. Vista su richiesta: le app e i servizi

Il cambiamento più importante è anche il meno visibile: risiede in app che le persone già possedevano. La categoria si è divisa in due livelli che ora lavorano insieme — descrizione AI istantanea per la domanda di routine, e un essere umano in linea per il momento che conta. I flussi di lavoro più efficaci consentono a un utente di iniziare con il modello e scalare verso una persona con un solo tocco.

Le schede qui sotto descrivono il comportamento pratico dei cinque servizi che dominano l’uso quotidiano, non le dichiarazioni di marketing. «Il problema» è la colonna da leggere per prima.

Gratuito; il punto di partenza predefinito per milioni di utenti

Cosa c’è di nuovoL’AI descrive qualsiasi foto, poi risponde alle domande di approfondimento in conversazione

EscalationUn solo tocco per raggiungere un volontario vedente quando l’AI non è sufficiente

Il problemaAllucinazioni confidenti; non adatto per farmaci o situazioni di sicurezza

Arrivato su Android alla fine del 2023 dopo anni solo su iOS

Cosa c’è di nuovoDescrizioni di scene «ricche» generative e Q&A sui documenti in aggiunta ai canali classici

Punto di forzaLettura rapida, anche offline, di testi brevi e valute

Il problemaLe descrizioni ricche ereditano lo stesso rischio di fabbricazione di qualsiasi modello

Agenti professionisti formati, non volontari

Cosa c’è di nuovoL’accesso gratuito sponsorizzato in aeroporti, campus e luoghi di lavoro si è ampliato nel corso del 2024-2025

Punto di forzaAssistenza responsabile e coerente per compiti ad alto rischio

Il problemaI minuti costano denaro al di fuori delle sedi sponsorizzate

Costruito attorno alla fotocamera del telefono e a Gemini

Cosa c’è di nuovo«Chiedi informazioni su un’immagine» consente agli utenti di porre domande su una foto e ottenere risposte generative

Punto di forzaStretta integrazione con Android e TalkBack

Il problemaSolo Android; la qualità varia con l’illuminazione e il disordine nell’inquadratura

L’app è gratuita; gli occhiali si acquistano separatamente

Cosa c’è di nuovo«Ally», un assistente LLM conversazionale lanciato nel 2024, può rispondere a domande aperte

Punto di forzaEccellente lettura di documenti; lo stesso motore su telefono e occhiali

Il problemaL’esperienza premium è vincolata all’acquisto dell’hardware

«I flussi di lavoro più efficaci consentono a un utente di iniziare con il modello e scalare verso un essere umano con un solo tocco — la macchina per la velocità, la persona per il momento che conta.»

— questo articolo, sezione 2

Hardware

3. La fotocamera si è spostata sul volto

Tenere un telefono alzato per puntare la fotocamera è praticabile, ma occupa una mano e annuncia a tutti i presenti esattamente cosa si sta facendo. Il cambiamento hardware più importante del periodo è stato spostare la fotocamera sulla testa, dove punta nella direzione in cui guarda l’utente e libera entrambe le mani. Due cose hanno reso questo possibile contemporaneamente: fotocamere indossabili economiche e di qualità accettabile, e un modello abbastanza capace da dare senso a ciò che esse vedono.

Il momento spartiacque è stato il novembre 2024, quando Meta ha aggiunto una modalità per utenti ciechi ai suoi occhiali mainstream Ray-Ban Meta tramite un’integrazione con Be My Eyes — una funzione «Chiama un volontario» che trasmette in streaming la visione in prima persona del portatore a un assistente vedente, affiancata dall’AI di Meta che può descrivere ciò che si trova davanti all’utente su richiesta. Per la prima volta il dispositivo assistivo era un paio di occhiali da sole che le persone già volevano indossare, non un apparecchio medicale vistoso.

I primi occhiali dall’aspetto «normale» con una modalità per ciechi

Cosa c’è di nuovoBe My Eyes «Chiama un volontario» + descrizioni AI della scena su richiesta, mani libere

Punto di forzaSocialmente invisibili; costo contenuto rispetto ai dispositivi dedicati

Il problemaNon progettati in primo luogo per utenti ciechi; nessun rilevamento degli ostacoli

Progettati appositamente per utenti ciechi e ipovedenti

Cosa c’è di nuovoL’assistente Ally sugli occhiali; riconoscimento istantaneo di testo, scene e volti

Punto di forzaLettura di testi stampati e scritti a mano di livello superiore

Il problemaCosto molto superiore agli occhiali consumer; hardware in invecchiamento

Una fotocamera delle dimensioni di un polpastrello che si aggancia a qualsiasi montatura

Cosa c’è di nuovoLettura e riconoscimento on-device con «smart reading» a comandi vocali

Punto di forzaFunziona offline; immediato, privato, non richiede il telefono

Il problemaPrezzo elevato; meno versatile di un assistente AI aperto

Sensori da auto a guida autonoma adattati per i pedoni

Cosa c’è di nuovoPrevede le collisioni e avvisa tramite suono spaziale 3D; «Live AI» descrive l’ambiente circostante durante il movimento

Punto di forzaConsapevolezza continua degli ostacoli, non solo descrizione su richiesta

Il problemaUn complemento al bastone e al cane guida, mai un sostituto

La descrizione non è navigazione

Gli occhiali che descrivono una scena sono eccellenti nel rispondere a «cos’è questo?» e del tutto inutili nel rispondere a «c’è un gradino davanti a me?». La descrizione della scena e l’elusione degli ostacoli sono compiti diversi che richiedono sensori diversi. Ogni produttore credibile in questa categoria afferma la stessa cosa: il dispositivo si affianca al bastone bianco o al cane guida, non li sostituisce.

Mobilità

4. Sapere dove ci si trova

La navigazione è il problema più difficile del settore, perché il costo di una risposta sbagliata è un marciapiede, una tromba delle scale o una strada. Il periodo ha prodotto reali progressi su due sotto-problemi distinti: rilevare ciò che si trova immediatamente intorno, e orientarsi in un edificio dove il GPS viene meno.

WeWALK Smart Cane 2

Un aggiornamento del 2024 del bastone smart che aggiunge un’impugnatura sensoriale a un normale bastone bianco. Rileva gli ostacoli all’altezza del petto e della testa che lo spazzolamento del bastone non intercetta — rami sporgenti, porte di armadi aperte, specchietti di camion — e avvisa tramite vibrazione. La seconda generazione ha ampliato l’angolo di rilevamento, aggiunto un assistente vocale AI integrato (basato su GPT-4) e una più stretta integrazione con navigazione e trasporto pubblico, e ha ricevuto l’Edison Award e il King’s Award for Enterprise Innovation. Fondamentale: conserva il bastone: lo strumento collaudato rimane, la sensoristica è additiva.

Glidance Glide

Il fattore di forma davvero nuovo del periodo. Glide è un piccolo dispositivo a due ruote di un’azienda fondata dall’ex tecnologo per l’accessibilità di Microsoft Amos Miller. Lo si spinge in avanti e avanza da solo, guidando fisicamente l’utente — sterzando attorno agli ostacoli e comunicando attraverso l’impugnatura telescopica, a metà strada tra un bastone bianco e un cane guida. Il primo lotto di pre-ordini è stato aperto a metà del 2024 ed è andato esaurito entro la fine dell’anno; il dispositivo ha un abbonamento mensile di circa 30 USD, con le spedizioni ai primi sostenitori che iniziano nel 2026. È ancora agli inizi, ed è il dispositivo più interessante da monitorare.

GoodMaps indoor navigation

La navigazione svolta per svolta all’aperto funziona da anni; all’interno degli edifici, dove il GPS viene meno, non è mai stata risolta. GoodMaps usa il posizionamento basato sulla fotocamera per collocare un utente all’interno di un edificio mappato — un aeroporto, un terminal del trasporto pubblico, un campus — e fornire indicazioni passo dopo passo senza i beacon richiesti dai sistemi precedenti. La copertura è il limite: funziona solo dove una sede ha pagato per essere mappata.

Apple Door Detection e Magnifier

L’ausilio per la navigazione che la maggior parte delle persone già possiede. La modalità Rilevamento dell’app Magnifier individua le porte, legge la segnaletica su di esse e indica se sono aperte e come aprirle, utilizzando lo scanner LiDAR sugli iPhone e iPad Pro. People Detection misura la distanza dalle persone nelle vicinanze, e VoiceOver Recognition descrive oggetti e scene on-device. Nulla di tutto questo richiede un abbonamento o hardware aggiuntivo — è incluso nella confezione.

«Il costo di una risposta di navigazione sbagliata non è una frase imbarazzante — è un marciapiede, una tromba delle scale o una strada. Ecco perché ogni produttore serio mantiene il bastone nel circuito.»

— questo articolo, sezione 4

Piattaforma

5. Il sistema operativo ha recuperato terreno

La rivoluzione più silenziosa è avvenuta all’interno dello screen reader. Per anni, il problema che un utente cieco incontrava più spesso era l’immagine non descritta — una foto, un grafico, un meme senza testo alternativo. Tra il 2024 e il 2026 ogni piattaforma principale ha introdotto una risposta integrata: si punta lo screen reader su un’immagine e un modello integrato la descrive, poi accetta domande di approfondimento. Ciò che una volta richiedeva un’app di terze parti è ora una singola combinazione di tasti.

La matrice qui sotto mette a confronto i risultati raggiunti da ciascuna piattaforma. Lo schema è coerente — descrizione AI delle immagini ovunque, comprensione della telecamera in tempo reale più avanzata su mobile, supporto braille approfondito di recente su Apple — ma i dettagli determinano quale strumento si adatta a un determinato utente. Per la metodologia di test e gli strumenti, la nostra guida agli strumenti di test per screen reader approfondisce l’argomento, e lo standard di riferimento è WCAG 2.2.

Screen reader	Descrizione AI delle immagini	Scena da telecamera live	Novità nel 2025	Costo
VoiceOver + Magnifier (Apple)	VoiceOver Recognition (on-device)	Door & People Detection	Braille Access, Accessibility Reader, Magnifier per Mac	Integrato
TalkBack + Gemini (Android)	Gemini descrive & risponde alle domande	tramite Lookout	Q&A Gemini più approfondito su immagini e schermata intera	Integrato
JAWS (Windows)	Picture Smart AI (ChatGPT, Claude)	N/A (desktop)	Picture Smart più veloce, Q&A di approfondimento	Licenza a pagamento
NVDA (Windows)	Add-on della community (GPT-4 vision)	N/A (desktop)	Ecosistema di add-on in maturazione	Gratuito + add-on

Il ciclo di maggio 2025 di Apple merita una nota a parte, perché ha ampliato la definizione di accessibilità. Braille Access trasforma un iPhone, iPad, Mac o Vision Pro in un note-taker braille completo che comunica nativamente con un display aggiornabile. Accessibility Reader è una modalità di lettura a livello di sistema per utenti ipovedenti e dislessici. Accessibility Nutrition Labels inserisce le funzionalità di accessibilità di un’app direttamente nella sua pagina dell’App Store, così un utente cieco può sapere prima di scaricarla se un’app funzionerà — un nudge strutturale che spinge ogni sviluppatore a fare di meglio.

Una funzionalità precedente merita di essere menzionata anche qui: Personal Voice, che consente a una persona di registrare e sintetizzare un modello della propria voce. È stata concepita per chi sta perdendo la capacità di parlare, ma indica un futuro più ampio in cui la voce sintetica nell’orecchio di un utente cieco può essere una che ha effettivamente scelto.

Tatto

6. Leggere con il tatto ha finalmente ottenuto un grafico

In mezzo a tutta l’AI, la svolta più attesa era meccanica. I display braille aggiornabili mostravano una singola riga di testo da decenni — ottimi per la prosa, del tutto inadeguati per un manuale di matematica, una mappa o un grafico. Il sogno di una pagina intera di braille dinamico e grafica tattile aveva un nome nel settore, «Holy Braille», e per anni era rimasto tale.

Nel 2024 è diventato realtà. Il Monarch, frutto di una partnership tra l’American Printing House for the Blind e HumanWare, è il primo dispositivo mainstream in grado di mostrare dieci righe di braille e grafica tattile sulla stessa superficie aggiornabile — così uno studente può sentire un grafico a barre, un diagramma geometrico o una mappa e leggerne contemporaneamente le etichette in braille. È basato su Android, importa file di grafica tattile e supporta il formato eBraille multilinea emergente. Il prezzo è elevato, nell’ordine delle cinque cifre, motivo per cui raggiunge principalmente gli studenti tramite finanziamenti istituzionali anziché i privati. Il Dot Pad coreano, un display tattile a matrice di pin che Apple supporta nativamente, affronta lo stesso problema dal lato consumer. Per il mercato più ampio, si consulti la nostra guida all’acquisto dei display braille aggiornabili.

Perché un grafico tattile è importante

Uno studente cieco può ascoltare la descrizione di una parabola, ma non può esplorarla come uno studente vedente traccia una curva con gli occhi. La grafica tattile multilinea ripristina quell’esplorazione. La conseguenza educativa — in particolare per le materie STEM, in cui il settore ha perso generazioni di talenti a causa di diagrammi inaccessibili — è più grande di quanto il numero di dispositivi suggerisca.

Diagnostica

7. Il problema: cosa è ancora rotto

Ogni sezione sopra riportava una riga «il problema» per una ragione. I progressi sono reali, ma un primer che vendesse solo il lato positivo farebbe un torto ai propri lettori. Quattro limitazioni attraversano l’intero panorama, e qualsiasi acquirente onesto dovrebbe valutarle prima del marketing.

Allucinazione confidenziale

Ogni strumento di descrizione AI qui presente a volte descriverà qualcosa che non esiste — un prezzo sbagliato, un’etichetta che non riusciva a leggere ma ha ipotizzato, una data di scadenza inventata. Lo fa con lo stesso tono fluente e sicuro che usa quando ha ragione. Per le domande di routine ciò è tollerabile; per farmaci, allergeni, documenti finanziari o qualsiasi cosa critica per la sicurezza, l’unica regola sicura è verificare con un essere umano o un canale non-AI affidabile. Il modello produce la bozza; non ha l’ultima parola.

Il prezzo delle cose buone

Il livello gratuito è genuinamente trasformativo — Be My AI, Seeing AI, Lookout e le funzionalità integrate dello screen reader non costano nulla. Ma l’hardware dedicato che fa di più, o funziona a mani libere, o legge con il tatto, va da centinaia a molte migliaia di euro. Un Monarch è un dispositivo da cinque cifre. Il risultato è un divario crescente tra ciò che è teoricamente possibile e ciò che un individuo senza finanziamenti istituzionali può effettivamente permettersi.

La fotocamera vede sempre

Un dispositivo che trasmette in streaming la visione in prima persona a un modello cloud o a un volontario trasmette anche tutto il resto nell’inquadratura — le persone intorno, i documenti sulla scrivania, l’interno di casa. Il compromesso sulla privacy è reale e in gran parte non regolamentato, e ricade con più forza sugli utenti che hanno meno scelta se accettarlo. Un buon design riduce al minimo ciò che lascia il dispositivo; non tutto il design è buono.

Gli strumenti non sono formazione

Nessuna app sostituisce l’istruzione in orientamento e mobilità, e nessun sensore sostituisce il bastone bianco o il cane guida nel rilevare il terreno. Il pericolo di un assistente molto capace è la falsa sicurezza che può creare. I dispositivi che hanno successo sono quelli costruiti come complementi a competenze consolidate, non come sostituti — ecco perché il bastone continua a riapparire in questo articolo.

Il web è ancora l’anello debole

Tutta questa intelligenza assistiva opera su un web che è ancora in gran parte inaccessibile. Uno screen reader AI può descrivere un’immagine, ma non può correggere un pulsante senza etichetta, un modulo che intrappola il focus o un checkout che si rompe sotto uno screen reader. Gli strumenti sono migliorati più velocemente dei siti web. Prima di fidarsi che il proprio sito sia al passo, lo si sottoponga a una scansione di accessibilità gratuita — e si tratti con grande sospetto gli overlay AI che promettono conformità istantanea.

Conclusione: il soffitto si è alzato, il pavimento ha tenuto

Scritto onestamente, la storia dal 2023 al 2026 è che il soffitto si è alzato notevolmente e il pavimento si è appena mosso. Una persona cieca nel 2026 può fare cose che erano fantascienza nel 2022 — chiedere a un paio di occhiali da sole cosa c’è su un menu, sentire un grafico aggiornarsi sotto le dita, ottenere qualsiasi foto descritta con una singola combinazione di tasti. Si tratta di una genuina espansione dell’indipendenza, e si è concretizzata più velocemente di quanto chiunque nel settore avesse previsto.

Ma il pavimento — le cose che devono funzionare ogni singola volta — ha tenuto fermo. Un modello allucinan ancora. Una fotocamera vede ancora troppo. Un’ottima app ancora non riesce a correggere un sito web non funzionante o a sostituire un istruttore di mobilità. La maturità di questo momento non sta nelle demo; sta nel sapere esattamente di quale strumento fidarsi per quale compito, e quale ricontrollare. I professionisti e gli utenti migliori già pensano in questo modo: la macchina per la velocità, l’essere umano per il momento che conta, e il bastone in mano per tutto il tempo.

I prossimi tre anni saranno giudicati sul pavimento, non sul soffitto. Se i tassi di allucinazione scenderanno, se l’hardware di qualità diventerà più economico e se il web sottostante recupererà finalmente terreno sulla tecnologia assistiva che ci opera sopra, il divario tra ciò che è possibile e ciò che è affidabile si chiuderà. Nel frattempo, la regola che attraversa ogni sezione di questo primer vale: gli strumenti sono una bozza straordinaria di vista su richiesta — e l’utente, non il modello, ha ancora l’ultima parola.

«Il soffitto si è alzato notevolmente e il pavimento si è appena mosso. La maturità sta nel sapere di quale strumento fidarsi per quale compito — e quale ricontrollare.»

— questo articolo, conclusione