A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

Primer ingegneristico · AI + testo alternativo

AI e testo alternativo: dove la tecnologia funziona davvero nel 2026

Un primer ingegneristico sullo stato del testo alternativo generato dall'AI nel 2026. Abbiamo testato GPT-4o, Claude 3.7 Sonnet, Gemini 2.0, Llama-Vision-3 e Pixtral su quattro categorie di immagini e documentato esattamente dove la tecnologia è affidabile e dove ancora fabrica dettagli inesistenti.

AI e testo alternativo
dove la tecnologia funziona davvero nel 2026

I modelli visione-linguaggio riescono ora a descrivere una foto informativa con una fluidità che nel 2022 sarebbe sembrata impossibile. Continuano tuttavia ad allucinare testo negli screenshot, a identificare erroneamente il genere dei soggetti con disabilità visibili e a inventare nomi di marchi mai presenti nell’immagine. Questo primer traccia il confine tra i due ambiti.

5
modelli di visione testati
4
categorie di immagini testate
circa 62%
tetto di usabilità al primo passaggio
11 min di lettura
Aggiornato maggio 2026

1. La natura del problema nel 2026

Il Criterio di successo 1.1.1 del WCAG 2.2 non è cambiato dal 2008. Ogni immagine non testuale che veicola un significato ha bisogno di un testo alternativo; ogni immagine decorativa deve essere contrassegnata come decorativa. Ciò che è cambiato, rispetto alla versione di questo articolo che avremmo scritto nel 2022 e alla versione che scriviamo nel maggio 2026, è che generare una frase plausibile da un array di pixel non è più il collo di bottiglia. Generare una frase corretta, contestualmente appropriata e priva di dettagli fabricati lo è ancora.

Il cambiamento conta perché la maggior parte delle piattaforme CMS in produzione nel 2026 include un pulsante «alt text automatico». Il pulsante chiama un modello visione-linguaggio tramite un’API vendor e scrive il risultato direttamente nell’attributo alt. La conseguenza per l’accessibilità è diretta: se il pulsante funziona correttamente, un’immagine che in precedenza veniva consegnata con alt vuoto è ora descritta all’utente di screen reader. Se il pulsante sbaglia, l’utente di screen reader riceve una frase formulata con sicurezza su qualcosa che non è nell’immagine.

Questo primer è pensato per i tecnici che gestiscono quel pulsante. Esamina i cinque modelli di visione che rappresentano la grande maggioranza delle integrazioni vendor nel 2026, ne testa ciascuno sulle quattro categorie canoniche di immagini, documenta le modalità di errore ricorrenti e conclude con un flusso di lavoro ibrido che riteniamo essere l’unica scelta predefinita sostenibile finché il comportamento sottostante non cambia.

circa 41%
delle immagini in un crawl rappresentativo di 500 grandi pagine di e-commerce statunitensi vengono consegnate con attributo alt mancante o vuoto (scansione interna DW, marzo 2026).
circa 18%
dei restanti alt sono nomi file generati automaticamente o frasi predefinite come «image» o «product» — presenti, ma inutili per un utente di screen reader.
circa 11%
degli alt sono generati dall’AI e non modificati — riconoscibili dalla caratteristica struttura a tre clausole con tono dubitativo (classificatore interno DW).
Cosa intendiamo per «funziona»

Un candidato di testo alternativo generato dall’AI «funziona» se un revisore umano lo accetterebbe così com’è, o lo accetterebbe con una modifica di un elemento. Qualsiasi testo che richieda una riscrittura è una mancanza. Questa è una soglia più severa della metrica accademica CIDEr o BLEU che un modello potrebbe citare — è la soglia che un pulsante CMS deve superare.

«La conseguenza per l’accessibilità è diretta: se il pulsante funziona correttamente, un’immagine che in precedenza veniva consegnata con alt vuoto è ora descritta all’utente di screen reader. Se il pulsante sbaglia, l’utente di screen reader riceve una frase formulata con sicurezza su qualcosa che non è nell’immagine.»

— questo articolo, sezione 1

2. Il panorama dei modelli nel 2026

Cinque modelli visione-linguaggio dominano le integrazioni in produzione: due modelli frontier chiusi (GPT-4o vision, Claude 3.7 Sonnet vision), un modello chiuso molto utilizzato nei prodotti Google e nei componenti aggiuntivi Workspace downstream (Gemini 2.0), e due modelli open-weights disponibili in plugin CMS self-hosted dove le norme sulla residenza dei dati escludono le API chiuse (Llama-Vision-3, Pixtral). Ciascuno ha un profilo distinto nel test delle quattro categorie di seguito.

Le schede combinate qui riportano il comportamento pratico osservato su circa 600 immagini di test in marzo e aprile 2026, non le affermazioni di marketing. I costi sono per immagine a risoluzione tipica a partire da maggio 2026 e non includono il margine del vendor.

GPT-4o vision
OpenAI · gpt-4o (build maggio 2026)
Scelta predefinita più comune via API chiusa nei CMS di fascia media
Punto di forzaFoto informative, composizione della scena
Punto deboleAllucinazione del testo a schermo
Costo appross. / immaginecirca 0,004 USD
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
Comune nei CMS enterprise dove la revisione editoriale fa parte del flusso di lavoro
Punto di forzaRifiuta di inventare testo che non riesce a leggere; grafici
Punto deboleVerboso; richiede un prompt esplicito sulla lunghezza
Costo appross. / immaginecirca 0,005 USD
Gemini 2.0
Google · gemini-2.0-pro vision mode
Predefinito nei componenti aggiuntivi Workspace, CMS adiacenti a Google
Punto di forzaScreenshot, identificazione di elementi di interfaccia
Punto deboleIdentifica erroneamente gli ausili per la mobilità, fabrica nomi di marchi
Costo appross. / immaginecirca 0,003 USD
Llama-Vision-3
Meta · 90B vision, open weights
Plugin CMS self-hosted, deployment con requisiti di residenza dei dati in UE
Punto di forzaFoto, classificazione delle immagini decorative
Punto deboleGrafici; tende a ipotizzare i valori degli assi
Costo appross. / immaginecosto di inferenza self-hosted
Pixtral
Mistral · pixtral-large, open weights
Self-hosted europeo; plugin per modelli di dimensioni ridotte
Punto di forzaOutput concisi; rispetta il budget di lunghezza
Punto deboleMinore capacità di recupero della composizione della scena nelle foto complesse
Costo appross. / immaginecosto di inferenza self-hosted

3. Il test delle quattro categorie

L’albero decisionale WCAG per i contenuti non testuali si riduce, in pratica, a quattro categorie: foto informative (una persona, una scena, un oggetto che veicola un significato); grafici e diagrammi (un grafico a barre, un diagramma di flusso, una mappa annotata); screenshot e interfacce utente (una dashboard, uno stato di errore, un pannello impostazioni); e decorative (una sfumatura hero, un separatore, un’illustrazione di riempimento). Abbiamo assemblato un set di test di 600 immagini campionando 150 immagini per categoria da contesti di notizie sulla disabilità, rapporti di associazioni non profit, documentazione software e contenuti di riempimento editoriali. Ogni modello ha prodotto un candidato alt per immagine; tre revisori umani hanno etichettato ogni candidato come accettato, modificato o rifiutato. La matrice di seguito riporta il tasso di accettazione.

I numeri non sono pensati per incoronare un vincitore. Sono pensati per indicare quale categoria è il luogo più rischioso in cui pubblicare un candidato AI senza revisione.

ModelloFoto informativeGrafici e diagrammiScreenshot e UIDecorative (correttamente nulle)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
Le due colonne da monitorare

In tutti i modelli, le due colonne più deboli sono grafici e diagrammi e decorative (correttamente nulle). La prima fallisce perché il modello inventa valori che non riesce a leggere; la seconda fallisce perché il modello scrive una frase quando la risposta corretta è il silenzio. Entrambi gli errori sono invisibili a un revisore vedente che controlla solo la colonna delle foto.


4. Le quattro modalità di errore che contano

I tassi di accettazione aggregati nascondono la trama degli errori. Esaminando i candidati rifiutati nell’intero set di test, quattro modalità di errore ricorrono con una frequenza sufficiente a rappresentare la grande maggioranza delle mancanze. Le nominiamo qui affinché qualsiasi redattore che revisioni l’output AI sappia quali schemi cercare per primi.

1

Testo a schermo allucinato

Il modello scrive che l’asse di un grafico è etichettato «Ricavi T3 2024» quando il grafico mostra in realtà i conteggi delle visualizzazioni di pagina; il modello scrive che il pulsante di uno screenshot riporta «Invia» quando riporta «Salva e continua». GPT-4o è il principale responsabile in questa categoria; Claude 3.7 Sonnet nella maggior parte dei casi rifiuta, restituendo una frase del tipo «un grafico la cui etichetta dell’asse non è leggibile a questa risoluzione». Il rifiuto è il comportamento corretto, ed è la risposta giusta che un pulsante CMS dovrebbe esporre.

2

Identificazione errata dei soggetti con disabilità

Una sedia a rotelle elettrica diventa «uno scooter motorizzato»; un bastone bianco diventa «un bastone da passeggio»; un soggetto con disabilità visibile in una foto di una manifestazione viene descritto come «una persona seduta su una sedia che guarda la parata». Lo schema degli errori riflette la composizione dei dati di addestramento. Nessuno dei cinque modelli testati ha gestito l’identificazione degli ausili per la mobilità a un tasso che definiremmo pronto per la produzione, e la modifica correttiva è quasi sempre necessaria.

3

Perdita di sfumatura contestuale

Una foto di due persone che usano la Lingua dei Segni Americana (ASL) viene descritta come «due persone che gesticolano»; una foto di un cane guida sotto un tavolo di un ristorante viene descritta come «un cane che dorme sotto un mobile». I pixel vengono descritti con accuratezza. Il significato che il redattore ha inteso trasmettere con l’immagine no. La perdita di sfumatura contestuale è la modalità di errore che la matrice non riesce a misurare, e il motivo per cui il testo alternativo generato dall’AI senza revisione editoriale è, in pratica, la scelta predefinita sbagliata.

4

Fabricazione di nomi di marchi

Il modello scrive che una foto stock di un laptop è «un Apple MacBook» quando il laptop è un chassis generico con design Windows; il modello scrive che una tazza da caffè senza marchio è «una tazza Starbucks». Gemini 2.0 è il più incline a questa categoria di errore nel nostro set di test. Il rimedio è un vincolo lato prompt: istruire il modello a rifiutare l’identificazione di marchi nominati a meno che un marchio o logotipo non sia inequivocabilmente visibile. Anche con il vincolo, rimane necessaria una revisione a campione.

«I pixel vengono descritti con accuratezza. Il significato che il redattore ha inteso trasmettere con l’immagine no.»

— questo articolo, modalità di errore 3

5. Il flusso di lavoro ibrido che raccomandiamo

Considerare il testo alternativo generato dall’AI come «completamente automatizzato» o «irresponsabile» è una falsa alternativa. I numeri per categoria dicono qualcosa di più utile: i candidati AI sono utilizzabili come prima bozza nella colonna delle foto e come fonte di rifiuto nella colonna dei grafici, e rappresentano un rischio attivo nella colonna delle decorative a meno che il flusso di lavoro non preveda un’esplicita funzione «segna come decorativo». Il predefinito corretto è ibrido, e i passaggi di seguito sono il modello ibrido che raccomandiamo.

1

Classificare per categoria prima di generare

Un piccolo classificatore (pochi migliaia di parametri sono sufficienti) decide se l’immagine è una foto, un grafico, uno screenshot o decorativa. La decisione di routing determina il prompt, il modello e se generare o meno. Le immagini decorative non dovrebbero essere inviate al modello: dovrebbero essere contrassegnate direttamente come decorative e consegnate con alt vuoto.

2

Usare Claude 3.7 Sonnet per grafici e screenshot

La matrice mostra che Claude è in testa nelle due colonne in cui il rifiuto è il comportamento corretto. Configurare il prompt in modo da richiedere un rifiuto esplicito quando il testo non è leggibile, e segnalare qualsiasi grafico i cui valori degli assi non siano leggibili anziché ipotizzarli. Esporre il rifiuto nel CMS come stato «richiede descrizione umana», non come alt vuoto.

3

Usare GPT-4o o Gemini 2.0 per le foto, con un vincolo sui nomi di marchi

Per la colonna delle foto informative, entrambi i modelli producono tassi di accettazione superiori a circa il 65%. Aggiungere un’istruzione lato prompt che impedisca di identificare qualsiasi nome di marca a meno che un logo o marchio denominativo non sia inequivocabilmente presente nell’immagine. Limitare la lunghezza dell’output a 125 caratteri per scoraggiare lo schema verboso a tre clausole.

4

Passaggio di revisione umana prima della pubblicazione

Ogni candidato AI è una bozza. Il pulsante CMS scrive il candidato in un campo di revisione, non nell’attributo alt. Il redattore accetta, modifica o sostituisce con un testo originale. Per contesti di notizie, contesti di accessibilità o qualsiasi situazione in cui l’identificazione errata di un soggetto con disabilità potrebbe essere dannosa, il passaggio di revisione editoriale è imprescindibile.

5

Audit con cadenza programmata

Rieseguire un campione di alt pubblicati rispetto alla matrice ogni trimestre. I modelli cambiano; le build vendor cambiano; le modalità di errore si spostano. Un campione di 100 immagini richiede un pomeriggio e rileva la regressione del comportamento prima che lo faccia un utente di screen reader.

Cosa dovrebbe e non dovrebbe significare «automazione»

Una funzione di testo alternativo AI che scrive direttamente nell’attributo alt senza revisione umana non è una funzione di accessibilità — è una dichiarazione di accessibilità. La conformità al WCAG richiede ancora che il testo alternativo sia corretto, contestuale e non fabricato. Il modello può produrre la bozza; solo il redattore può pubblicare.


Conclusione: la soglia si è alzata, il pavimento no

Il titolo di questo primer, scritto onestamente, è che i modelli visione-linguaggio nel 2026 sono ora una prima bozza utile per la colonna delle foto e una fonte di rifiuto utile per la colonna dei grafici, e che questi due fatti insieme implicano un flusso di lavoro ibrido piuttosto che uno completamente automatizzato. La soglia si è spostata in modo significativo tra il 2022 e il 2026 — i tassi di accettazione per le foto informative sono ora nei sessanta alti per i migliori modelli chiusi, mentre nel 2022 erano più vicini ai trenta bassi. Il pavimento no. Gli ausili per la mobilità vengono ancora identificati erroneamente, l’ASL diventa ancora «gesticolare» e le immagini decorative ricevono ancora una frase quando hanno bisogno di silenzio.

La conseguenza per l’accessibilità è che il predefinito corretto per qualsiasi CMS che pubblica un pulsante «alt text automatico» nel 2026 non è «premi il pulsante e pubblica». È «premi il pulsante per produrre la bozza, poi revisiona prima di pubblicare». Qualcosa di più stringente — ignorare completamente l’AI — lascia il 41% delle immagini con alt vuoto senza essere affrontato quando una bozza avrebbe aiutato. Qualcosa di più lasso — pubblicare senza revisione — invia dettagli fabricati ai lettori che dipendono più direttamente dalla correttezza del testo alternativo.

Rieseguiremo questa matrice nel novembre 2026. Se la colonna dei grafici sarà salita oltre la linea del 60% di accettazione, il flusso di lavoro ibrido si stringerà. Nel frattempo, il pulsante produce la bozza, il redattore pubblica.

«Il modello può produrre la bozza; solo il redattore può pubblicare.»

— questo articolo, passaggio 4 del flusso di lavoro ibrido