La visión a demanda:
los tres años que transformaron la vida de las personas ciegas y con baja visión
Entre 2023 y 2026, las herramientas que utilizan a diario las personas ciegas y con baja visión dejaron de ser un goteo lento de dispositivos de propósito único y se convirtieron en una oleada de IA de uso general. Un teléfono puede leer ahora una habitación, unas gafas de sol de aspecto corriente pueden llamar a un voluntario, y una pantalla braille puede por fin mostrar un gráfico. Este análisis cartografía lo que realmente se lanzó al mercado, quién lo fabrica y —tan importante como lo anterior— dónde falla todavía cada uno.
1. Qué cambió realmente
Durante la mayor parte de la era del smartphone, la tecnología de apoyo en la que dependía una persona ciega se presentaba en dos variantes. Por un lado, dispositivos estrechos, caros y de propósito único —una cámara lectora de texto, un identificador de color, una unidad GPS con una voz torpe—; por otro, aplicaciones que conectaban al usuario con un ser humano, porque ninguna máquina podía describir de forma fiable el desordenado mundo visual. La primera variante era costosa y frágil. La segunda funcionaba, pero obligaba a pedir a otra persona cada vez que se quería saber si la leche había caducado.
El giro llegó en marzo de 2023, cuando OpenAI anunció GPT-4 y utilizó la aplicación para personas ciegas Be My Eyes como demostración emblemática de lo que podía hacer un modelo capaz de procesar imágenes. Por primera vez, un modelo de uso general —no un clasificador construido a medida— podía examinar una fotografía arbitraria y responder preguntas sobre ella en un lenguaje fluido. Esa única capacidad —describir cualquier cosa y responder después a preguntas de seguimiento— resultó ser exactamente lo que le faltaba al sector. En dieciocho meses se había integrado en teléfonos, gafas, lectores de pantalla y bastones.
Este análisis recorre esa oleada en seis frentes: las aplicaciones de asistencia visual, los dispositivos ponibles, las ayudas a la navegación, los lectores de pantalla del sistema operativo, los avances en braille y gráficos táctiles, y la capa web que subyace a todo ello. A lo largo del texto, la pregunta es siempre la misma que hacemos de cualquier herramienta nueva: no «¿impresiona en una demostración?», sino «¿obtiene una persona ciega una respuesta correcta y útil cuando la necesita?» La respuesta honesta, en 2026, es «con mucha más frecuencia que en 2022 —y todavía no con la suficiente como para fiarse ciegamente». Se mantienen las dos mitades de esa frase.
Se considera que una herramienta funciona cuando devuelve una respuesta sobre la que una persona ciega puede actuar sin que una persona con visión deba verificarla. El mismo baremo que se aplica a las descripciones de imágenes generadas por IA en nuestro análisis complementario sobre dónde aporta realmente la IA en el texto alternativo en 2026 se aplica aquí: una frase confiada que es incorrecta es peor que ninguna frase.
2. La visión a demanda: las aplicaciones y los servicios
El cambio más relevante es también el menos visible: vive en aplicaciones que la gente ya tenía. La categoría se dividió en dos capas que ahora funcionan juntas: descripción por IA al instante para la pregunta rutinaria, y un ser humano al teléfono para el momento que importa. Los flujos de trabajo más eficaces permiten al usuario comenzar con el modelo y escalar a una persona con un solo toque.
Las tarjetas siguientes recogen el comportamiento práctico de los cinco servicios que dominan el uso cotidiano, no las declaraciones de marketing. «El problema» es la columna que conviene leer primero.
«Los flujos de trabajo más eficaces permiten al usuario comenzar con el modelo y escalar a una persona en un solo toque: la máquina para la velocidad, la persona para el momento que importa.»
3. La cámara se trasladó al rostro
Sostener un teléfono en alto para apuntar con su cámara es viable, pero ocupa una mano y anuncia a todos los presentes exactamente lo que se está haciendo. El cambio de hardware más importante del período fue trasladar la cámara a la cabeza, donde apunta allá donde el usuario mira y libera ambas manos. Dos factores lo hicieron posible al mismo tiempo: cámaras ponibles baratas y de calidad aceptable, y un modelo lo bastante bueno como para interpretar lo que ven.
El hito fue noviembre de 2024, cuando Meta añadió un modo para usuarios ciegos a sus gafas de consumo general Ray-Ban Meta mediante una integración con Be My Eyes —una función «Llamar a un voluntario» que transmite la vista en primera persona del portador a un asistente con visión, junto con la propia IA de Meta, que puede describir lo que hay delante a petición. Por primera vez, el dispositivo de apoyo era un par de gafas de sol que la gente ya quería llevar, no un aparato médico llamativo.
Las gafas que describen una escena son excelentes para «¿qué es esto?» e inútiles para «¿hay un escalón delante de mí?». La descripción de escenas y la detección de obstáculos son tareas distintas que requieren sensores diferentes. Todos los fabricantes serios de esta categoría dicen lo mismo: el dispositivo se sitúa junto a el bastón blanco o el perro guía, no en lugar de ellos.
4. Saber dónde se está
La navegación es el problema más difícil del sector, porque el coste de una respuesta errónea es un bordillo, un hueco en la escalera o una calzada. El período produjo avances reales en dos subproblemas distintos: detectar lo que hay inmediatamente alrededor y orientarse dentro de un edificio donde el GPS no llega.
WeWALK Smart Cane 2
Una actualización de 2024 del bastón inteligente que añade un mango sensor a un bastón blanco ordinario. Detecta obstáculos a la altura del pecho y la cabeza que el barrido con el bastón no alcanza —ramas colgantes, puertas de armario abiertas, retrovisores de camiones— y advierte mediante vibración. La segunda generación amplió el ángulo de detección, añadió un asistente de voz con IA integrado (basado en GPT-4) y una integración más estrecha con la navegación y el transporte público, y obtuvo un Edison Award y un King’s Award for Enterprise Innovation. De forma decisiva, mantiene el bastón: la herramienta de referencia permanece, la detección es un añadido.
Glidance Glide
El factor de forma más genuinamente nuevo del período. Glide es un pequeño dispositivo de dos ruedas de una empresa fundada por Amos Miller, antiguo tecnólogo de accesibilidad de Microsoft. Se empuja hacia delante y rueda por delante del usuario, guiándolo físicamente —esquivando obstáculos y comunicándose a través del mango telescópico, a medio camino entre un bastón blanco y un perro guía. Su primer lote de pedidos anticipados se abrió a mediados de 2024 y se agotó antes de fin de año; el dispositivo tiene una suscripción mensual de aproximadamente 30 USD, y el envío a los primeros clientes comenzó en 2026. Es pronto, y es el dispositivo que más merece seguimiento.
GoodMaps indoor navigation
La navegación exterior giro a giro funciona desde hace años; en interiores, donde el GPS falla, no. GoodMaps utiliza posicionamiento basado en cámara para situar al usuario dentro de un edificio cartografiado —un aeropuerto, una estación de transporte, un campus— y ofrecer orientación paso a paso sin las balizas que requerían sistemas anteriores. La cobertura es el límite: solo funciona donde un recinto ha pagado por ser cartografiado.
Apple Door Detection y Magnifier
La ayuda a la navegación que la mayoría de la gente ya posee. El modo de Detección de la aplicación Magnifier localiza puertas, lee la señalización que llevan e informa de si están abiertas y cómo abrirlas, utilizando el escáner LiDAR de los iPhone y iPad Pro. People Detection mide la distancia a las personas cercanas, y VoiceOver Recognition describe objetos y escenas en el propio dispositivo. Nada de esto requiere suscripción ni hardware adicional: viene incluido de fábrica.
«El coste de una respuesta de navegación errónea no es una frase incómoda: es un bordillo, un hueco en la escalera o una calzada. Por eso todos los fabricantes serios mantienen el bastón en el circuito.»
5. El sistema operativo se puso al día
La revolución más silenciosa ocurrió dentro del lector de pantalla. Durante años, la brecha que encontraba con más frecuencia una persona ciega era la imagen sin describir —una fotografía, un gráfico, un meme sin texto alternativo. Entre 2024 y 2026, todas las plataformas principales incorporaron una respuesta integrada: apuntar el lector de pantalla a una imagen y un modelo integrado la describe, y después acepta preguntas de seguimiento. Lo que antes requería una aplicación de terceros es ahora una pulsación de tecla.
La matriz siguiente compara el estado de cada plataforma. El patrón es coherente —descripción de imágenes por IA en todas partes, comprensión de la cámara en vivo más potente en móvil, compatibilidad braille recientemente ampliada en Apple—, pero son los detalles los que determinan qué herramienta se adapta mejor a cada usuario. Para conocer la metodología de prueba y las herramientas disponibles, nuestra guía de herramientas de prueba de lectores de pantalla profundiza en ello, y el estándar subyacente es WCAG 2.2.
| Lector de pantalla | Descripción de imagen por IA | Escena en vivo por cámara | Novedades en 2025 | Coste |
|---|---|---|---|---|
| VoiceOver + Magnifier (Apple) | VoiceOver Recognition (en el dispositivo) | Door & People Detection | Braille Access, Accessibility Reader, Magnifier para Mac | Incluido |
| TalkBack + Gemini (Android) | Gemini describe & responde preguntas | vía Lookout | Preguntas y respuestas con Gemini más profundas sobre imágenes y pantalla completa | Incluido |
| JAWS (Windows) | Picture Smart AI (ChatGPT, Claude) | N/A (escritorio) | Picture Smart más rápido, preguntas y respuestas de seguimiento | Licencia de pago |
| NVDA (Windows) | Complementos de la comunidad (GPT-4 vision) | N/A (escritorio) | Ecosistema de complementos en maduración | Gratuito + complemento |
La oleada de Apple de mayo de 2025 merece una mención aparte, porque amplió la definición de accesibilidad. Braille Access convierte un iPhone, iPad, Mac o Vision Pro en un bloc de notas braille completo que se comunica de forma nativa con una pantalla braille refrescable. Accessibility Reader es un modo de lectura a nivel de sistema para usuarios con baja visión y dislexia. Accessibility Nutrition Labels coloca las funciones de accesibilidad de una aplicación directamente en su página de la App Store, de modo que una persona ciega puede saber antes de descargarla si una aplicación funcionará —un incentivo estructural que presiona a todos los desarrolladores a hacerlo mejor.
Una función anterior merece también mencionarse aquí: Personal Voice, que permite a alguien grabar y sintetizar un modelo de su propia voz. Se diseñó pensando en personas que pierden el habla, pero apunta a un futuro más amplio en el que la voz sintética que escucha una persona ciega pueda ser una que ella misma haya elegido.
6. La lectura táctil por fin obtuvo un gráfico
En medio de toda la IA, el avance más esperado fue mecánico. Las pantallas braille refrescables mostraban una sola línea de texto desde hacía décadas —suficiente para la prosa, inútil para un libro de texto de matemáticas, un mapa o un gráfico. El sueño de una página completa de braille dinámico y gráficos táctiles tenía un nombre en el sector, «Holy Braille», y durante años permaneció como un sueño.
En 2024 llegó al mercado. El Monarch, una colaboración entre la American Printing House for the Blind y HumanWare, es el primer dispositivo para el mercado general capaz de mostrar diez líneas de braille y gráficos táctiles en la misma superficie refrescable —de modo que un estudiante puede sentir un gráfico de barras, un diagrama de geometría o un mapa y leer sus etiquetas en braille a la vez. Tiene base Android, importa archivos de gráficos táctiles y admite el formato eBraille multifila emergente. El precio es elevado, en torno a cinco cifras, razón por la cual llega principalmente a los estudiantes a través de financiación institucional antes que a particulares. El Dot Pad de Corea, una pantalla táctil de matriz de pines con soporte nativo de Apple, aborda el mismo problema desde el lado del consumo. Para el mercado en general, véase nuestra guía del comprador de pantallas braille refrescables.
Un estudiante ciego puede escuchar la descripción de una parábola, pero no puede explorarla del modo en que un estudiante con visión traza una curva con los ojos. Los gráficos táctiles multifila restauran esa exploración. La consecuencia educativa —en especial para las STEM, un campo que ha perdido generaciones de talento por culpa de los diagramas inaccesibles— es mayor de lo que sugiere el número de dispositivos vendidos.
7. El problema: qué sigue sin funcionar
Cada sección anterior llevaba una línea de «el problema» por una razón. El progreso es real, pero un análisis que solo vendiera las ventajas estaría haciendo un flaco favor a sus lectores. Cuatro limitaciones atraviesan todo el panorama, y cualquier comprador honesto debería sopesarlas antes del marketing.
Alucinaciones con tono confiado
Todas las herramientas de descripción por IA aquí recogidas describirán en algún momento algo que no existe —un precio incorrecto, una etiqueta que no podía leer pero adivinó, una fecha de caducidad que inventó. Lo hacen con el mismo tono fluido y seguro que emplean cuando aciertan. Para preguntas rutinarias eso es tolerable; para medicación, alérgenos, documentos financieros o cualquier cosa crítica para la seguridad, la única regla segura es verificar con una persona o un canal no basado en IA de confianza. El modelo redacta un borrador; no tiene la última palabra.
El precio de lo bueno
El nivel gratuito es genuinamente transformador —Be My AI, Seeing AI, Lookout y las funciones de accesibilidad integradas en el sistema operativo no cuestan nada. Pero el hardware dedicado que hace más, o funciona con manos libres, o permite leer por tacto, oscila entre cientos y muchos miles de euros. Un Monarch es un dispositivo de cinco cifras. El resultado es una brecha creciente entre lo que es teóricamente posible y lo que un particular sin financiación institucional puede permitirse realmente.
La cámara siempre ve
Un dispositivo que transmite la vista en primera persona a un modelo en la nube o a un voluntario también transmite todo lo demás que hay en el encuadre —las personas que rodean al usuario, los documentos sobre su escritorio, el interior de su hogar. La contrapartida de privacidad es real y en gran medida no está regulada, y recae con más fuerza sobre los usuarios que tienen menos capacidad de elección sobre si aceptarla. El buen diseño minimiza lo que sale del dispositivo; no todo diseño es bueno.
Las herramientas no son formación
Ninguna aplicación sustituye a la instrucción en orientación y movilidad, y ningún sensor sustituye al bastón blanco o al perro guía para detectar el suelo. El peligro de un asistente muy bueno es la falsa confianza que puede generar. Los dispositivos que tienen éxito son los construidos como complementos de habilidades probadas, no como sustitutos de ellas —razón por la que el bastón sigue reapareciendo en este artículo.
Toda esta inteligencia de apoyo funciona sobre una web que sigue siendo mayoritariamente inaccesible. Un lector de pantalla con IA puede describir una imagen, pero no puede arreglar un botón sin etiqueta, un formulario que atrapa el foco o un proceso de pago que se rompe bajo un lector de pantalla. Las herramientas mejoraron más rápido que los sitios web. Antes de confiar en que el propio sitio está a la altura, conviene pasarlo por un análisis de accesibilidad gratuito —y recelar profundamente de las capas de IA que prometen conformidad instantánea.
Conclusión: el techo subió, el suelo aguantó
Escrita con honestidad, la historia de 2023 a 2026 es que el techo subió drásticamente y el suelo apenas se movió. Una persona ciega en 2026 puede hacer cosas que eran ciencia ficción en 2022 —preguntar a unas gafas de sol qué hay en una carta, sentir cómo un gráfico se actualiza bajo sus dedos, obtener la descripción de cualquier foto con una pulsación de tecla. Eso es una expansión genuina de la independencia, y llegó más rápido de lo que nadie en el sector predijo.
Pero el suelo —lo que debe funcionar bien cada vez, sin excepción— se mantuvo firme. Un modelo sigue alucinando. Una cámara sigue viendo demasiado. Una gran aplicación sigue sin poder arreglar un sitio web roto ni sustituir a un instructor de movilidad. La madurez de este momento no está en las demostraciones; está en saber exactamente en qué herramienta confiar para cada tarea, y cuál conviene verificar. Los mejores profesionales y usuarios ya piensan así: la máquina para la velocidad, la persona para el momento que importa, y el bastón en la mano todo el tiempo.
Los próximos tres años se juzgarán por el suelo, no por el techo. Si las tasas de alucinación caen, si el buen hardware se abarata, y si la web subyacente por fin se pone al nivel de la tecnología de apoyo que hay encima, la brecha entre lo posible y lo fiable se cerrará. Hasta entonces, la regla que recorre cada sección de este análisis se mantiene: las herramientas son un borrador notable de la visión a demanda —y el usuario, no el modelo, sigue teniendo la última palabra.
«El techo subió drásticamente y el suelo apenas se movió. La madurez está en saber en qué herramienta confiar para cada tarea —y cuál conviene verificar.»