Produrre audiolibri di testo 2026: da DAISY all'AI

A cura di Disability WorldTempo di lettura: 10 minuti

Descrizione immagine: un microfono da studio professionale accanto a un libro di testo aperto con cuffie e controlli audio — il marcatore visivo per la produzione di audiolibri di testo.

Un libro di testo non è un podcast. Ha livelli di intestazione, esercizi numerati, note a piè di pagina, indici, equazioni, diagrammi con didascalie e uno studente che deve trovare pagina 217 nel mezzo di una sessione di revisione. Produrlo in formato audio significa produrre tutto questo — non solo la prosa. Nel 2026, due pipeline parallele svolgono questo lavoro: la catena DAISY tradizionale che ha servito gli editori audio specializzati per un quarto di secolo, e una nuova catena di narrazione AI che, negli ultimi tre anni, ha ridotto il costo di produzione per ora di circa un ordine di grandezza. Non sono intercambiabili. Il punto in cui si incontrano — cosa sopravvive di DAISY, cosa viene affidato al sintetizzatore, cosa rimane a un essere umano — è la storia dell’audiolibro di testo del 2026.

Questo articolo è una guida alla produzione per le persone che commissionano, finanziano e utilizzano questi libri: coordinatori dell’istruzione speciale, uffici per la disabilità universitaria, bibliotecari di formati alternativi e i team editoriali delle organizzazioni che operano ai margini dell’istruzione accessibile. Illustra la pipeline DAISY che produce un audiolibro di testo accessibile, il cambiamento portato dalla narrazione AI che sta rimodellando l’economia a monte, il compromesso costo-qualità che entrambe le parti stanno ora negoziando, i problemi di accuratezza che nessuno ha ancora pienamente risolto (matematica, nomi propri, alternanza linguistica), la specifica DAISY 4.0 pubblicata nel 2025 e i principali produttori che determinano quali libri arrivano effettivamente a uno studente.

Cosa significa davvero «DAISY»

DAISY — Digital Accessible Information System — è una specifica, un consorzio e una famiglia di formati di file. È stata pubblicata per la prima volta nel 1996 da una coalizione di biblioteche di libri parlati che aveva bisogno di un modo per distribuire l’audio navigabile e strutturato che una cassetta non poteva offrire. Le due specifiche che ancora ancorando il formato sono DAISY 2.02, rilasciata nel 2001 e tuttora il formato che la maggior parte delle biblioteche di libri parlati tradizionali serve effettivamente, e DAISY 3, formalizzata come ANSI/NISO Z39.86 nel 2002 e rivista nel 2012 e di nuovo nel 2024. L’aggiornamento del 2024 — Z39.86-2024 — è la versione a cui punta la maggior parte degli strumenti di produzione attuali, nonché la specifica ponte tra il mondo tradizionale e DAISY 4.0.

Cosa fa DAISY che un MP3 non può fare: porta la navigazione strutturata (passa al capitolo 4, sezione 2, esercizio 3), la sincronizzazione SMIL (il file audio e la traccia testuale sono mantenuti sincronizzati in modo che la posizione di riproduzione in uno corrisponda sempre all’altra), e uno strato di metadati abbastanza ricco da descrivere note a piè di pagina, riquadri laterali, numeri di pagina, celle di tabella ed elementi skip-on/skip-off come le intestazioni di pagina ricorrenti. Un lettore DAISY — Dolphin EasyReader, Voice Dream, il lettore di riferimento AMIS, il dispositivo hardware Victor Reader Stratus — trasforma quelle strutture in una pressione di tasto: uno studente può avanzare per frase, per paragrafo, per livello di intestazione 3 o per numero di pagina, sullo stesso libro.

La pipeline di produzione DAISY tradizionale

La produzione di un libro di testo DAISY con la pipeline tradizionale richiede sei fasi distinte e, per un libro di testo di 400 pagine, circa sei-dodici settimane di tempo effettivo per titolo presso un produttore come Learning Ally o il Royal National Institute of Blind People (RNIB).

Fase 1 — preparazione della fonte. L’editore fornisce un PDF cartaceo o, sempre più spesso, un EPUB. La produzione pulisce il file, separa il testo principale dalle intestazioni e dai piè di pagina ricorrenti, contrassegna la gerarchia delle intestazioni ed esporta un ordine di lettura XHTML strutturato. I diagrammi e le equazioni vengono segnalati per una gestione separata.
Fase 2 — narrazione. Un narratore umano formato registra la prosa in una sessione di studio. Per un libro di testo il narratore segue una guida di stile dell’editore che copre come leggere le tabelle, come descrivere i diagrammi, come pronunciare la terminologia specifica della materia e come gestire i passaggi in lingua straniera non tradotti.
Fase 3 — montaggio e controllo qualità. Un secondo passaggio rimuove i rumori respiratori, le ripetizioni per mispronunce e allinea l’audio registrato rispetto al testo di origine. Un lettore QA ascolta a fronte della copia cartacea per verificarne l’accuratezza.
Fase 4 — sincronizzazione SMIL. Il software di produzione genera un file SMIL (Synchronized Multimedia Integration Language) che registra ogni confine di frase nell’audio rispetto allo span corrispondente nell’XHTML, producendo la mappatura testo-audio momento per momento su cui si basa la navigazione DAISY.
Fase 5 — confezionamento. L’audio, la traccia SMIL, il testo XHTML e un manifesto di navigazione vengono raggruppati in un pacchetto DAISY 2.02 o DAISY 3, validati rispetto al verificatore di conformità del formato e caricati nel catalogo di distribuzione del produttore.
Fase 6 — distribuzione. Il pacchetto viene servito ai lettori autorizzati tramite un’app specifica del produttore o attraverso lo scambio transfrontaliero globale del Trattato di Marrakesh verso le biblioteche partner in altre giurisdizioni.

La pipeline produce un libro autorevole, navigabile e di qualità per l’aula. È anche costosa. Il costo per ora finita di audio, nella catena DAISY tradizionale con narrazione umana, si colloca nell’intervallo da circa 45 a circa 75 dollari USA tra i principali produttori — una cifra relativamente invariata dalla metà degli anni 2010 e guidata quasi interamente dal tempo in studio, dai compensi dei narratori e dal QA editoriale.

La pipeline di narrazione AI

Il cambiamento che ha mosso la conversazione sugli audiolibri di testo nel 2024–26 è l’arrivo di voci neurali di sintesi vocale (TTS) che sono, per la prima volta, sufficientemente indistinguibili da un narratore umano che la questione se utilizzarle non viene più automaticamente liquidata con un «no». La lista ristretta dei servizi che orientano le decisioni di produzione nel 2026 è piccola e ben definita: ElevenLabs (il cui modello multilingue v3, rilasciato nel 2025, è il riferimento per la narrazione di libri di testo in inglese nella maggior parte delle discussioni correnti); Speechify (la cui offerta enterprise del 2024 è rivolta specificamente all’istruzione, con una modalità per contenuti di lunga durata e voci in stile accademico preconfigurate); Amazon Polly Neural (il più economico su scala, con un forte supporto SSML); e OpenAI TTS HD (la voce con il suono narrativo più naturale nei test di ascolto comparativo condotti da gruppi di ricerca sull’accessibilità nel 2025).

La struttura di una pipeline di audiolibri di testo narrati da AI differisce da quella tradizionale meno nelle sue fasi che nella sua economia. La preparazione della fonte, il markup strutturale e il confezionamento rimangono invariati. Le fasi 2 e 3 — narrazione e montaggio — si condensano in un unico passaggio automatizzato: il testo strutturato viene inviato al sintetizzatore con hint SSML per enfasi, pronuncia e durata delle pause, e il sintetizzatore restituisce l’audio. Un passaggio di QA umano ridotto spazza poi le modalità di errore (descritte di seguito) che il sintetizzatore non riesce ancora a risolvere autonomamente.

Il cambiamento nel costo è il dato di testa. Mentre la catena tradizionale produce un’ora finita a circa 45–75 dollari, la narrazione AI su scala produttiva si attesta tra circa 3 e circa 7 dollari per ora presso i principali fornitori nel 2026 — una riduzione di 10 volte. Questa cifra è quella che ha spostato la domanda da «possiamo permetterci di produrre questo libro» a «quale libro non dovremmo produrre». Una biblioteca nazionale di formati alternativi che in precedenza selezionava 800 nuovi titoli all’anno con un budget fisso può, con lo stesso budget, selezionarne 6.000–8.000 — a condizione che la qualità tenga nelle categorie in cui conta davvero.

Il compromesso costo-qualità

La «qualità» nella produzione di audiolibri di testo non è una dimensione unica. È almeno quattro: intelligibilità (un ascoltatore riesce a interpretare ciò che la voce dice), naturalezza (l’ascolto prolungato causa affaticamento), accuratezza (le parole sulla pagina corrispondono a quelle lette) e fedeltà strutturale (tabelle, equazioni e note a piè di pagina sopravvivono nell’audio). I moderni TTS neurali raggiungono ora punteggi comparabili all’umano per intelligibilità e a un solo punto dalla naturalezza nei test standard a 5 punti di Mean Opinion Score (MOS) utilizzati dalla comunità di ricerca sulla sintesi vocale. Il divario rimane visibile per accuratezza e fedeltà strutturale.

Lo studio di ascolto comparativo 2025 dell’American Foundation for the Blind — il singolo contributo pubblicato più ampio sulla questione — ha coinvolto studenti universitari non vedenti nell’ascolto di passaggi corrispondenti da libri di testo di chimica, storia e letteratura spagnola, narrati alternativamente da voce umana e da voci ElevenLabs v3. Il risultato di testa: a livello di frase, la narrazione AI era preferita o valutata equivalente nel 71% delle prove per le materie a dominanza prosaica (storia, filosofia, letteratura inglese). Per le materie ricche di simboli (chimica, matematica, fisica) l’AI era preferita o valutata equivalente solo nel 28% delle prove, con il divario determinato dalla resa della notazione matematica e dalla gestione da parte della voce AI delle formule con pedici. La raccomandazione dello studio era prevedibile e ora è citata operativamente: narrazione AI in prima istanza, con un passaggio umano sui capitoli ricchi di simboli.

La domanda educativamente interessante non è più «umano o AI» — è «quali frasi necessitano di un umano, e quali possono essere sintetizzate su scala». La risposta è sempre più che l’80–90% di un libro di testo può essere sintetizzato, ma il restante 10–20% — equazioni, nomi propri in lingue non familiari, citazioni di fonti primarie in ortografia arcaica — è dove un libro di testo smette di essere un podcast.
La regola di produzione 80/20, 2026

Matematica, nomi propri e il problema dell’alternanza linguistica

Le modalità di errore di accuratezza che il TTS neurale attuale non ha risolto sono sufficientemente prevedibili che i produttori ora le pianificano nella fase di preparazione della fonte piuttosto che scoprirle nel QA.

Matematica. Le equazioni codificate come MathML hanno una forma parlata canonica — leggi l’integrale da a a b di x al quadrato dx — che nessun motore TTS di uso generale genera correttamente. Le pipeline di produzione ora instradano il MathML attraverso un motore dedicato math-to-speech (MathSpeak, l’estensione di accessibilità MathJax, o il motore open-source SRE mantenuto dal progetto Math-in-DAISY) prima di passare il testo inglese risultante al sintetizzatore voce. La specifica DAISY 4.0 formalizza questo instradamento come schema di produzione raccomandato.

Nomi propri. I nomi di persone, luoghi, organizzazioni e la terminologia specifica delle materie vengono mispronunciati in modo prevedibile. Un audit del 2024 del DAISY Consortium su 50 ore di contenuto educativo narrato da AI ha rilevato tassi di mispronuncia di nomi di circa il 14% nei testi di storia (dove i nomi spaziano su più lingue) e di circa il 22% nei libri di testo di lingue straniere (dove i nomi sono il contenuto). La misura di mitigazione è un lessico di pronuncia per titolo — tipicamente da 50 a 300 voci per un libro di testo di 400 pagine — costruito durante la preparazione della fonte e fornito al sintetizzatore come hint di lessico SSML.

Alternanza linguistica. Un libro di testo di storia che cita Cicerone in latino, un libro di testo di letteratura che cita Pushkin in russo, un libro di testo di economia che cita Piketty in francese — queste sono le frasi dove una voce TTS monolingue fallisce più visibilmente. ElevenLabs v3 e l’aggiornamento TTS 2025 di OpenAI includono entrambi modelli monovoce multilingui che alternano le lingue a metà enunciato, ma la qualità dell’alternanza è irregolare. Lo schema di produzione affidabile nel 2026 consiste nel contrassegnare esplicitamente lo span in lingua straniera, instradarlo a una voce specifica per quella lingua e riassemblare l’audio al livello SMIL.

DAISY 4.0: cosa cambia con la specifica 2025

DAISY 4.0, pubblicata in forma di bozza dal DAISY Consortium alla fine del 2025, è la prima revisione del formato a livello di specifica in un decennio. Il suo punto di partenza progettuale è che l’oggetto prodotto non dovrebbe dover scegliere tra un audiolibro e un libro di testo-e-immagini — dovrebbe essere entrambi, simultaneamente, con il lettore che sceglie cosa mostrare al lettore.

Quattro modifiche contano maggiormente per la produzione di libri di testo. Prima, allineamento con EPUB 3: DAISY 4.0 è strutturalmente un pacchetto EPUB 3 con audio aggiunto, piuttosto che un formato parallelo con EPUB come destinazione di esportazione. Un produttore che mantiene un libro di testo EPUB 3 può produrre la sua edizione audio DAISY 4.0 aggiungendo tracce, non convertendo file. Seconda, MathML nativo: le equazioni viaggiano come MathML fino al lettore, che decide a runtime se renderizzarle visivamente, leggerle ad alta voce, o entrambe le cose. Terza, metadati di provenienza multi-voce: un pacchetto DAISY 4.0 può trasportare span narrati da umani, narrati da AI e resi da motori matematici misti, con ogni span attribuito in metadati al suo metodo di produzione — un requisito di trasparenza che un insieme emergente di norme di procurement nazionale sta iniziando a richiedere. Quarta, estensioni di navigazione per gli elementi strutturali che i libri di testo hanno sempre avuto ma che DAISY 3 gestiva in modo goffo: esercizi numerati, serie di problemi, rimandi al glossario e riferimenti incrociati tra volumi.

La tempistica di transizione che la maggior parte dei produttori cita pubblicamente è prudente. Il DAISY Consortium prevede che la maggior parte dei nuovi titoli educativi venga distribuita in formato DAISY 4.0 entro il 2027–28, con il catalogo DAISY 2.02 tradizionale che persiste indefinitamente sul lato dei lettori perché il parco installato di lettori hardware dedicati non può essere aggiornato da remoto.

I principali produttori e cosa producono

Learning Ally, l’organizzazione senza scopo di lucro statunitense fondata nel 1948 come Recording for the Blind, detiene il più grande catalogo di audiolibri di testo in lingua inglese al mondo — circa 80.000 titoli nel 2026 — e rimane sostanzialmente narrato da umani, con una rete di narratori volontari di circa 1.000 voci attive. Il suo documento strategico del 2025 si è impegnato per una pipeline con supporto AI (narrazione AI in prima istanza con QA umano sui capitoli ricchi di simboli) per i titoli scolastici di matematica e scienze, preservando la narrazione umana per il canone letterario.

Bookshare, gestito da Benetech, distribuisce un catalogo EPUB in primo piano — oltre 1,3 milioni di titoli nel 2026, tra categorie di lettura generale ed educativa — che abbina il testo sottostante all’audio sintetizzato reso dal lettore dell’utente piuttosto che preconfezionato in produzione. Il modello è il più economico su scala e il più allineato con l’architettura «il lettore decide» di DAISY 4.0.

RNIB Talking Books nel Regno Unito serve circa 25.000 membri attivi e produce circa 1.500 nuovi titoli all’anno, principalmente tramite narrazione umana con un programma pilota 2024–26 sulla narrazione AI per la saggistica. Il suo catalogo è il riferimento per il pubblico di libri di testo del curriculum britannico.

La Sezione IFLA Libraries Serving Persons with Print Disabilities (LPD) coordina la rete globale dei produttori e gestisce il catalogo transfrontaliero dell’Accessible Books Consortium (ABC) ai sensi del Trattato di Marrakesh — il meccanismo mediante il quale un libro prodotto in un Paese firmatario può essere prestato attraverso i confini ai lettori autorizzati in un altro. Lo scambio di cataloghi ABC del 2024 ha riportato oltre 850.000 trasferimenti di titoli transfrontalieri, un ordine di grandezza superiore alla cifra di cinque anni prima, con la crescita concentrata nei materiali educativi.

Cosa significa per lo studente nel 2026

L’effetto pratico dei cambiamenti del 2024–26 è che il catalogo disponibile per uno studente non vedente o con visione ridotta in una principale giurisdizione anglofona è all’incirca un ordine di grandezza più grande rispetto a inizio decennio, e il ritardo tra una pubblicazione cartacea e un’edizione audio accessibile si sta riducendo da un anno o più a settimane. Il ritardo per i libri di testo specificamente — storicamente la categoria più lenta a causa della complessità matematica e strutturale — si sta riducendo più lentamente, ma si sta riducendo.

Ciò che non è cambiato è la soglia di qualità accettabile. Un libro di testo deve ancora essere navigabile, accurato e sincronizzato con il suo testo di origine. Il progetto di DAISY 4.0 e l’economia della pipeline di narrazione AI rendono quella soglia meno costosa da raggiungere di quanto non sia mai stata. I produttori che con maggiore probabilità se la caveranno nel resto del decennio sono quelli che hanno smesso di inquadrare la scelta come umano o AI e hanno iniziato a chiedersi quale metodo è più adatto a quali frasi — e gli uffici per i servizi di disabilità nelle università e nelle scuole che hanno smesso di accettare «non possiamo permetterci di produrlo» come risposta definitiva.

Per approfondire, si rimanda agli altri contributi di Disability World su lo stato dell’accesso all’istruzione per i sordi nel mondo, sulle normative nazionali sull’accessibilità e sull’intera reportistica sull’accessibilità 2026.