A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Análisis técnico · IA + texto alternativo

IA y texto alternativo: qué aporta realmente la tecnología en 2026

Un análisis técnico sobre el estado del texto alternativo generado por IA en 2026. Se evaluaron GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 y Pixtral frente a cuatro categorías de imágenes, documentando exactamente dónde la tecnología funciona y dónde fabrica información.

IA y texto alternativo:
qué aporta realmente la tecnología en 2026

Los modelos de visión-lenguaje pueden describir hoy una fotografía informativa con una fluidez que en 2022 habría parecido imposible. Aun así, alucinan texto en capturas de pantalla, asignan género incorrecto a sujetos con discapacidad visible e inventan nombres de marcas que nunca estuvieron en el encuadre. Este análisis traza la línea entre ambos mundos.

5
modelos de visión evaluados
4
categorías de imágenes probadas
aprox. 62%
techo de usabilidad en primera pasada
11 min de lectura
Actualizado mayo 2026

1. La dimensión del problema en 2026

El Criterio de Conformidad 1.1.1 de WCAG 2.2 no ha cambiado desde 2008. Toda imagen no textual que transmita significado necesita una alternativa textual; toda imagen decorativa debe marcarse como tal. Lo que ha cambiado, entre la versión de este artículo que habríamos escrito en 2022 y la que escribimos en mayo de 2026, es que generar una frase plausible a partir de una matriz de píxeles ha dejado de ser el cuello de botella. Generar una frase que sea correcta, contextualmente apropiada y libre de detalles fabricados sigue siéndolo.

El cambio importa porque la mayoría de las plataformas CMS de producción de 2026 incorporan un botón de «texto alternativo automático». El botón llama a un modelo de visión-lenguaje a través de una API del proveedor y escribe el resultado directamente en el atributo alt. La consecuencia para la accesibilidad es directa: si el botón acierta, una imagen que antes se publicaba con el alt vacío queda ahora descrita para el usuario de un lector de pantalla. Si el botón falla, el usuario de lector de pantalla recibe una frase redactada con seguridad sobre algo que no está en la imagen.

Este análisis está dirigido a los ingenieros que son propietarios de ese botón. Examina los cinco modelos de visión que representan la abrumadora mayoría de las integraciones de proveedores en 2026, los prueba frente a las cuatro categorías de imágenes canónicas, documenta los modos de fallo recurrentes y concluye con un flujo de trabajo híbrido que consideramos la única opción por defecto defendible hasta que cambie el comportamiento subyacente.

aprox. 41%
de las imágenes en un rastreo representativo de 500 páginas de comercio electrónico grandes en EE. UU. se publican con un atributo alt ausente o vacío (análisis interno de DW, marzo 2026).
aprox. 18%
de los alts restantes son nombres de archivo generados automáticamente o frases genéricas como «imagen» o «producto» — presentes, pero inútiles para un usuario de lector de pantalla.
aprox. 11%
de los alts están generados por IA y sin revisar — identificables por su característica estructura de frase con tres cláusulas con cobertura de casos (clasificador interno de DW).
Qué entendemos por «funciona»

Se considera que un candidato de texto alternativo generado por IA «funciona» si un revisor humano lo aceptaría tal cual, o lo aceptaría con una edición de un solo elemento. Cualquier cosa que requiera reescritura es un fallo. Esta es una barra más exigente que la métrica académica CIDEr o BLEU que podría citar un modelo —es la barra que debe superar un botón de CMS.

«La consecuencia para la accesibilidad es directa: si el botón acierta, una imagen que antes se publicaba con el alt vacío queda ahora descrita para el usuario de un lector de pantalla. Si el botón falla, el usuario de lector de pantalla recibe una frase redactada con seguridad sobre algo que no está en la imagen.»

— este artículo, sección 1

2. El panorama de modelos en 2026

Cinco modelos de visión-lenguaje dominan las integraciones que encontramos en producción: dos modelos cerrados de frontera (GPT-4o vision, Claude 3.7 Sonnet vision), un modelo cerrado muy utilizado dentro de los productos de Google y los complementos de Workspace posteriores (Gemini 2.0), y dos modelos de pesos abiertos que se distribuyen en plugins de CMS autoalojados donde las normas de residencia de datos excluyen las API cerradas (Llama-Vision-3, Pixtral). Cada uno tiene un perfil diferente en la prueba de cuatro categorías que se describe a continuación.

Las fichas de combinación aquí recogen el comportamiento práctico que observamos en aproximadamente 600 imágenes de prueba en marzo y abril de 2026, no las afirmaciones de marketing. Los costes son por imagen a resolución típica a partir de mayo de 2026 y excluyen el margen del proveedor.

GPT-4o vision
OpenAI · gpt-4o (build mayo 2026)
Valor por defecto de API cerrada más común en CMS de mercado medio
FortalezaFotografías informativas, composición de escenas
DebilidadAlucina texto en pantalla
Coste aprox. / imagenaprox. 0,004 USD
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Común en CMS empresariales donde la revisión editorial forma parte del flujo de trabajo
FortalezaSe niega a inventar texto ilegible; gráficos
DebilidadVerboso; necesita indicación explícita de longitud
Coste aprox. / imagenaprox. 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro vision mode
Por defecto en complementos de Workspace y CMS vinculados a Google
FortalezaCapturas de pantalla, identificación de elementos de interfaz
DebilidadIdentifica incorrectamente ayudas a la movilidad, fabrica nombres de marcas
Coste aprox. / imagenaprox. 0,003 USD
Llama-Vision-3
Meta · 90B vision, pesos abiertos
Plugins de CMS autoalojados, implantaciones con residencia de datos en la UE
FortalezaFotografías, clasificación de imágenes decorativas
DebilidadGráficos; adivina valores de ejes
Coste aprox. / imagencoste de inferencia autoalojada
Pixtral
Mistral · pixtral-large, pesos abiertos
Autoalojado en Europa; plugins de modelos más pequeños
FortalezaResultados concisos; respeta el presupuesto de longitud
DebilidadMenor recuperación de composición de escena en fotografías complejas
Coste aprox. / imagencoste de inferencia autoalojada

3. La prueba de cuatro categorías

La guía del árbol de decisión de WCAG para contenido no textual se reduce, en la práctica, a cuatro categorías: fotografías informativas (una persona, una escena, un objeto que transmite significado); gráficos y diagramas (un gráfico de barras, un diagrama de flujo, un mapa anotado); capturas de pantalla e interfaces (un panel de control, un estado de error, un panel de configuración); y decorativas (un degradado hero, un separador, un relleno de ilustración genérica). Se ensambló un conjunto de prueba de 600 imágenes muestreando 150 imágenes por categoría a partir de contextos de noticias sobre discapacidad, informes de organizaciones benéficas, documentación de software y material de relleno editorial. Cada modelo produjo un candidato de texto alternativo por imagen; tres revisores humanos etiquetaron cada candidato como aceptar, editar o rechazar. La tabla siguiente recoge la tasa de aceptación.

Los números no pretenden coronar un ganador. Pretenden indicar en qué categoría resulta más arriesgado publicar un candidato de IA sin revisión.

ModeloFotografías informativasGráficos y diagramasCapturas e interfacesDecorativas (correctamente nulas)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
Las dos columnas a vigilar

En todos los modelos, las dos columnas más débiles son gráficos y diagramas y decorativas (correctamente nulas). La primera falla porque el modelo inventa valores que no puede leer; la segunda falla porque el modelo escribe una frase cuando la respuesta correcta es el silencio. Ambos errores son invisibles para un revisor con visión que solo comprueba puntualmente la columna de fotografías.


4. Los cuatro modos de fallo que importan

Las tasas de aceptación agregadas ocultan la textura de los errores. Al revisar los candidatos rechazados en el conjunto de prueba, cuatro modos de fallo reaparecen con la suficiente regularidad como para representar la gran mayoría de los fallos. Se enumeran aquí para que cualquier editor que revise el resultado de IA sepa qué patrones buscar primero.

1

Texto en pantalla alucinado

El modelo escribe que el eje de un gráfico está etiquetado como «ingresos T3 2024» cuando el gráfico muestra en realidad recuentos de páginas vistas; el modelo escribe que el botón de una captura de pantalla dice «Enviar» cuando dice «Guardar y continuar». GPT-4o es el mayor infractor en este sentido; Claude 3.7 Sonnet rechaza con mayor frecuencia, devolviendo una frase del tipo «un gráfico cuya etiqueta de eje no es legible a esta resolución». El rechazo es el comportamiento correcto, y lo que un botón de CMS debe exponer.

2

Identificación incorrecta de sujetos con discapacidad

Una silla de ruedas motorizada se convierte en «un scooter motorizado»; un bastón blanco se convierte en «un bastón de caminar»; un sujeto con discapacidad visible en una fotografía de una manifestación se describe como «una persona sentada en una silla mirando el desfile». El patrón de error refleja la composición de los datos de entrenamiento. Ninguno de los cinco modelos evaluados manejó la identificación de ayudas a la movilidad a una tasa que consideraríamos apta para producción, y la edición correctiva es prácticamente siempre necesaria.

3

Pérdida de matiz contextual

Una fotografía de dos personas usando la Lengua de Signos Americana se describe como «dos personas gesticulando»; una fotografía de un perro de asistencia bajo la mesa de un restaurante se describe como «un perro durmiendo debajo de un mueble». Los píxeles se describen con precisión. El significado que el editor pretendía transmitir al colocar la imagen no se transmite. La pérdida de matiz contextual es el modo de fallo que la tabla no puede medir, y la razón por la que el texto alternativo de IA sin revisión editorial es, en la práctica, la opción incorrecta por defecto.

4

Fabricación de nombres de marcas

El modelo escribe que una foto de archivo de un portátil es «un Apple MacBook» cuando el portátil es una carcasa genérica con forma de Windows; el modelo escribe que una taza de café sin marca es «una taza de Starbucks». Gemini 2.0 es el más propenso a esta categoría de error en nuestro conjunto de prueba. La solución pasa por el lado del prompt: se debe indicar al modelo que rechace la identificación de marcas concretas a menos que una marca o logotipo sea inequívocamente visible. Incluso con esta limitación, sigue siendo necesaria una revisión por muestreo.

«Los píxeles se describen con precisión. El significado que el editor pretendía transmitir al colocar la imagen no se transmite.»

— este artículo, modo de fallo 3

5. El flujo de trabajo híbrido que recomendamos

Tratar el texto alternativo de IA como «totalmente automatizable» o como «irresponsable» es una dicotomía falsa. Los números por categoría dicen algo más útil: los candidatos de IA son utilizables como primer borrador en la columna de fotografías y como fuente de rechazo en la columna de gráficos, y representan un riesgo activo en la columna de imágenes decorativas a menos que el flujo de trabajo incluya una prestación explícita de «marcar como decorativa». La opción por defecto correcta es un flujo híbrido, y los pasos siguientes son el híbrido que recomendamos.

1

Enrutar por categoría de imagen antes de generar

Un clasificador pequeño (bastan unos pocos miles de parámetros) decide si la imagen es una fotografía, un gráfico, una captura de pantalla o decorativa. La decisión de enrutamiento determina el prompt, el modelo y si se debe generar o no. Las imágenes decorativas no deben enviarse al modelo: deben marcarse directamente como decorativas y publicarse con un alt vacío.

2

Usar Claude 3.7 Sonnet para gráficos y capturas de pantalla

La tabla muestra que Claude lidera en las dos columnas donde el rechazo es el comportamiento correcto. Se debe configurar el prompt para exigir rechazo explícito cuando el texto no sea legible, e indicar al modelo que señale cualquier gráfico cuyos valores de eje no sean legibles en lugar de adivinarlos. Se debe mostrar el rechazo en el CMS como un estado de «necesita descripción humana», no como un alt vacío.

3

Usar GPT-4o o Gemini 2.0 para fotografías, con limitación de nombres de marcas

Para la columna de fotografías informativas, cualquiera de los dos modelos produce tasas de aceptación superiores al aprox. 65%. Conviene añadir una instrucción en el prompt para que nunca se identifique una marca a menos que un logotipo o nombre de marca sea inequívocamente visible en el encuadre. Se debe limitar la longitud de salida a 125 caracteres para desincentivar el patrón de frase verbosa con tres cláusulas.

4

Revisión humana antes de publicar

Todo candidato de IA es un borrador. El botón del CMS escribe el candidato en un campo de revisión, no en el atributo alt. El editor acepta, edita o sustituye por texto original. Para contextos de noticias, contextos de accesibilidad o cualquier situación en que la identificación incorrecta de un sujeto con discapacidad pudiera ser perjudicial, la revisión humana es innegociable.

5

Auditoría periódica

Se debe volver a ejecutar una muestra de los alts publicados frente a la tabla cada trimestre. Los modelos cambian; las versiones de los proveedores se actualizan; los modos de fallo se desplazan. Una muestra de 100 imágenes lleva una tarde y detecta la regresión de comportamiento antes de que lo haga un usuario de lector de pantalla.

Lo que «automatización» debe y no debe significar

Una función de texto alternativo de IA que escribe directamente en el atributo alt sin revisión humana no es una función de accesibilidad —es una declaración de accesibilidad. La conformidad con WCAG sigue exigiendo que la alternativa textual sea correcta, contextual y no fabricada. El modelo puede redactar; solo el editor puede publicar.


Conclusión: el listón subió, el suelo no

El titular de este análisis, escrito con honestidad, es que los modelos de visión-lenguaje en 2026 son ahora un borrador útil para la columna de fotografías y una fuente de rechazo útil para la columna de gráficos, y que ambos hechos juntos implican un flujo de trabajo híbrido en lugar de uno totalmente automatizado. El listón se ha movido de forma significativa entre 2022 y 2026 —las tasas de aceptación en fotografías informativas se sitúan ahora en los altos sesenta para los mejores modelos cerrados, donde en 2022 rondaban los bajos treinta. El suelo no se ha movido. Las ayudas a la movilidad siguen identificándose incorrectamente, la Lengua de Signos sigue convirtiéndose en «gesticulación», y las imágenes decorativas siguen recibiendo una frase cuando necesitan silencio.

La consecuencia para la accesibilidad es que el comportamiento correcto por defecto para cualquier CMS que publique un botón de «texto alternativo automático» en 2026 no es «pulsar el botón y publicar». Es «pulsar el botón para redactar un borrador, y luego revisar antes de publicar». Cualquier práctica más laxa que esa publica detalle fabricado a los lectores que dependen más directamente de que la alternativa textual sea correcta. Cualquier práctica más restrictiva —ignorar la IA por completo— deja sin abordar el 41% de imágenes con alts vacíos cuando un borrador habría ayudado.

En noviembre de 2026 se volverá a ejecutar esta tabla. Si la columna de gráficos ha superado la línea del 60% de aceptación, el flujo de trabajo híbrido se ajustará. Hasta entonces, el modelo redacta, el editor publica.

«El modelo puede redactar; solo el editor puede publicar.»

— este artículo, paso 4 del flujo de trabajo híbrido