IA y texto alternativo:
qué aporta realmente la tecnología en 2026
Los modelos de visión-lenguaje pueden describir hoy una fotografía informativa con una fluidez que en 2022 habría parecido imposible. Aun así, alucinan texto en capturas de pantalla, asignan género incorrecto a sujetos con discapacidad visible e inventan nombres de marcas que nunca estuvieron en el encuadre. Este análisis traza la línea entre ambos mundos.
1. La dimensión del problema en 2026
El Criterio de Conformidad 1.1.1 de WCAG 2.2 no ha cambiado desde 2008. Toda imagen no textual que transmita significado necesita una alternativa textual; toda imagen decorativa debe marcarse como tal. Lo que ha cambiado, entre la versión de este artículo que habríamos escrito en 2022 y la que escribimos en mayo de 2026, es que generar una frase plausible a partir de una matriz de píxeles ha dejado de ser el cuello de botella. Generar una frase que sea correcta, contextualmente apropiada y libre de detalles fabricados sigue siéndolo.
El cambio importa porque la mayoría de las plataformas CMS de producción de 2026 incorporan un botón de «texto alternativo automático». El botón llama a un modelo de visión-lenguaje a través de una API del proveedor y escribe el resultado directamente en el atributo alt. La consecuencia para la accesibilidad es directa: si el botón acierta, una imagen que antes se publicaba con el alt vacío queda ahora descrita para el usuario de un lector de pantalla. Si el botón falla, el usuario de lector de pantalla recibe una frase redactada con seguridad sobre algo que no está en la imagen.
Este análisis está dirigido a los ingenieros que son propietarios de ese botón. Examina los cinco modelos de visión que representan la abrumadora mayoría de las integraciones de proveedores en 2026, los prueba frente a las cuatro categorías de imágenes canónicas, documenta los modos de fallo recurrentes y concluye con un flujo de trabajo híbrido que consideramos la única opción por defecto defendible hasta que cambie el comportamiento subyacente.
Se considera que un candidato de texto alternativo generado por IA «funciona» si un revisor humano lo aceptaría tal cual, o lo aceptaría con una edición de un solo elemento. Cualquier cosa que requiera reescritura es un fallo. Esta es una barra más exigente que la métrica académica CIDEr o BLEU que podría citar un modelo —es la barra que debe superar un botón de CMS.
«La consecuencia para la accesibilidad es directa: si el botón acierta, una imagen que antes se publicaba con el alt vacío queda ahora descrita para el usuario de un lector de pantalla. Si el botón falla, el usuario de lector de pantalla recibe una frase redactada con seguridad sobre algo que no está en la imagen.»
2. El panorama de modelos en 2026
Cinco modelos de visión-lenguaje dominan las integraciones que encontramos en producción: dos modelos cerrados de frontera (GPT-4o vision, Claude 3.7 Sonnet vision), un modelo cerrado muy utilizado dentro de los productos de Google y los complementos de Workspace posteriores (Gemini 2.0), y dos modelos de pesos abiertos que se distribuyen en plugins de CMS autoalojados donde las normas de residencia de datos excluyen las API cerradas (Llama-Vision-3, Pixtral). Cada uno tiene un perfil diferente en la prueba de cuatro categorías que se describe a continuación.
Las fichas de combinación aquí recogen el comportamiento práctico que observamos en aproximadamente 600 imágenes de prueba en marzo y abril de 2026, no las afirmaciones de marketing. Los costes son por imagen a resolución típica a partir de mayo de 2026 y excluyen el margen del proveedor.
3. La prueba de cuatro categorías
La guía del árbol de decisión de WCAG para contenido no textual se reduce, en la práctica, a cuatro categorías: fotografías informativas (una persona, una escena, un objeto que transmite significado); gráficos y diagramas (un gráfico de barras, un diagrama de flujo, un mapa anotado); capturas de pantalla e interfaces (un panel de control, un estado de error, un panel de configuración); y decorativas (un degradado hero, un separador, un relleno de ilustración genérica). Se ensambló un conjunto de prueba de 600 imágenes muestreando 150 imágenes por categoría a partir de contextos de noticias sobre discapacidad, informes de organizaciones benéficas, documentación de software y material de relleno editorial. Cada modelo produjo un candidato de texto alternativo por imagen; tres revisores humanos etiquetaron cada candidato como aceptar, editar o rechazar. La tabla siguiente recoge la tasa de aceptación.
Los números no pretenden coronar un ganador. Pretenden indicar en qué categoría resulta más arriesgado publicar un candidato de IA sin revisión.
| Modelo | Fotografías informativas | Gráficos y diagramas | Capturas e interfaces | Decorativas (correctamente nulas) |
|---|---|---|---|---|
| GPT-4o vision | 71% | 34% | 52% | 41% |
| Claude 3.7 Sonnet vision | 68% | 49% | 61% | 58% |
| Gemini 2.0 | 66% | 38% | 64% | 44% |
| Llama-Vision-3 (90B) | 62% | 21% | 47% | 53% |
| Pixtral large | 57% | 26% | 42% | 48% |
En todos los modelos, las dos columnas más débiles son gráficos y diagramas y decorativas (correctamente nulas). La primera falla porque el modelo inventa valores que no puede leer; la segunda falla porque el modelo escribe una frase cuando la respuesta correcta es el silencio. Ambos errores son invisibles para un revisor con visión que solo comprueba puntualmente la columna de fotografías.
4. Los cuatro modos de fallo que importan
Las tasas de aceptación agregadas ocultan la textura de los errores. Al revisar los candidatos rechazados en el conjunto de prueba, cuatro modos de fallo reaparecen con la suficiente regularidad como para representar la gran mayoría de los fallos. Se enumeran aquí para que cualquier editor que revise el resultado de IA sepa qué patrones buscar primero.
Texto en pantalla alucinado
El modelo escribe que el eje de un gráfico está etiquetado como «ingresos T3 2024» cuando el gráfico muestra en realidad recuentos de páginas vistas; el modelo escribe que el botón de una captura de pantalla dice «Enviar» cuando dice «Guardar y continuar». GPT-4o es el mayor infractor en este sentido; Claude 3.7 Sonnet rechaza con mayor frecuencia, devolviendo una frase del tipo «un gráfico cuya etiqueta de eje no es legible a esta resolución». El rechazo es el comportamiento correcto, y lo que un botón de CMS debe exponer.
Identificación incorrecta de sujetos con discapacidad
Una silla de ruedas motorizada se convierte en «un scooter motorizado»; un bastón blanco se convierte en «un bastón de caminar»; un sujeto con discapacidad visible en una fotografía de una manifestación se describe como «una persona sentada en una silla mirando el desfile». El patrón de error refleja la composición de los datos de entrenamiento. Ninguno de los cinco modelos evaluados manejó la identificación de ayudas a la movilidad a una tasa que consideraríamos apta para producción, y la edición correctiva es prácticamente siempre necesaria.
Pérdida de matiz contextual
Una fotografía de dos personas usando la Lengua de Signos Americana se describe como «dos personas gesticulando»; una fotografía de un perro de asistencia bajo la mesa de un restaurante se describe como «un perro durmiendo debajo de un mueble». Los píxeles se describen con precisión. El significado que el editor pretendía transmitir al colocar la imagen no se transmite. La pérdida de matiz contextual es el modo de fallo que la tabla no puede medir, y la razón por la que el texto alternativo de IA sin revisión editorial es, en la práctica, la opción incorrecta por defecto.
Fabricación de nombres de marcas
El modelo escribe que una foto de archivo de un portátil es «un Apple MacBook» cuando el portátil es una carcasa genérica con forma de Windows; el modelo escribe que una taza de café sin marca es «una taza de Starbucks». Gemini 2.0 es el más propenso a esta categoría de error en nuestro conjunto de prueba. La solución pasa por el lado del prompt: se debe indicar al modelo que rechace la identificación de marcas concretas a menos que una marca o logotipo sea inequívocamente visible. Incluso con esta limitación, sigue siendo necesaria una revisión por muestreo.
«Los píxeles se describen con precisión. El significado que el editor pretendía transmitir al colocar la imagen no se transmite.»
5. El flujo de trabajo híbrido que recomendamos
Tratar el texto alternativo de IA como «totalmente automatizable» o como «irresponsable» es una dicotomía falsa. Los números por categoría dicen algo más útil: los candidatos de IA son utilizables como primer borrador en la columna de fotografías y como fuente de rechazo en la columna de gráficos, y representan un riesgo activo en la columna de imágenes decorativas a menos que el flujo de trabajo incluya una prestación explícita de «marcar como decorativa». La opción por defecto correcta es un flujo híbrido, y los pasos siguientes son el híbrido que recomendamos.
Enrutar por categoría de imagen antes de generar
Un clasificador pequeño (bastan unos pocos miles de parámetros) decide si la imagen es una fotografía, un gráfico, una captura de pantalla o decorativa. La decisión de enrutamiento determina el prompt, el modelo y si se debe generar o no. Las imágenes decorativas no deben enviarse al modelo: deben marcarse directamente como decorativas y publicarse con un alt vacío.
Usar Claude 3.7 Sonnet para gráficos y capturas de pantalla
La tabla muestra que Claude lidera en las dos columnas donde el rechazo es el comportamiento correcto. Se debe configurar el prompt para exigir rechazo explícito cuando el texto no sea legible, e indicar al modelo que señale cualquier gráfico cuyos valores de eje no sean legibles en lugar de adivinarlos. Se debe mostrar el rechazo en el CMS como un estado de «necesita descripción humana», no como un alt vacío.
Usar GPT-4o o Gemini 2.0 para fotografías, con limitación de nombres de marcas
Para la columna de fotografías informativas, cualquiera de los dos modelos produce tasas de aceptación superiores al aprox. 65%. Conviene añadir una instrucción en el prompt para que nunca se identifique una marca a menos que un logotipo o nombre de marca sea inequívocamente visible en el encuadre. Se debe limitar la longitud de salida a 125 caracteres para desincentivar el patrón de frase verbosa con tres cláusulas.
Revisión humana antes de publicar
Todo candidato de IA es un borrador. El botón del CMS escribe el candidato en un campo de revisión, no en el atributo alt. El editor acepta, edita o sustituye por texto original. Para contextos de noticias, contextos de accesibilidad o cualquier situación en que la identificación incorrecta de un sujeto con discapacidad pudiera ser perjudicial, la revisión humana es innegociable.
Auditoría periódica
Se debe volver a ejecutar una muestra de los alts publicados frente a la tabla cada trimestre. Los modelos cambian; las versiones de los proveedores se actualizan; los modos de fallo se desplazan. Una muestra de 100 imágenes lleva una tarde y detecta la regresión de comportamiento antes de que lo haga un usuario de lector de pantalla.
Una función de texto alternativo de IA que escribe directamente en el atributo alt sin revisión humana no es una función de accesibilidad —es una declaración de accesibilidad. La conformidad con WCAG sigue exigiendo que la alternativa textual sea correcta, contextual y no fabricada. El modelo puede redactar; solo el editor puede publicar.
Conclusión: el listón subió, el suelo no
El titular de este análisis, escrito con honestidad, es que los modelos de visión-lenguaje en 2026 son ahora un borrador útil para la columna de fotografías y una fuente de rechazo útil para la columna de gráficos, y que ambos hechos juntos implican un flujo de trabajo híbrido en lugar de uno totalmente automatizado. El listón se ha movido de forma significativa entre 2022 y 2026 —las tasas de aceptación en fotografías informativas se sitúan ahora en los altos sesenta para los mejores modelos cerrados, donde en 2022 rondaban los bajos treinta. El suelo no se ha movido. Las ayudas a la movilidad siguen identificándose incorrectamente, la Lengua de Signos sigue convirtiéndose en «gesticulación», y las imágenes decorativas siguen recibiendo una frase cuando necesitan silencio.
La consecuencia para la accesibilidad es que el comportamiento correcto por defecto para cualquier CMS que publique un botón de «texto alternativo automático» en 2026 no es «pulsar el botón y publicar». Es «pulsar el botón para redactar un borrador, y luego revisar antes de publicar». Cualquier práctica más laxa que esa publica detalle fabricado a los lectores que dependen más directamente de que la alternativa textual sea correcta. Cualquier práctica más restrictiva —ignorar la IA por completo— deja sin abordar el 41% de imágenes con alts vacíos cuando un borrador habría ayudado.
En noviembre de 2026 se volverá a ejecutar esta tabla. Si la columna de gráficos ha superado la línea del 60% de aceptación, el flujo de trabajo híbrido se ajustará. Hasta entonces, el modelo redacta, el editor publica.
«El modelo puede redactar; solo el editor puede publicar.»