Audioleermiddelen produceren: van DAISY tot AI-narration

Door Disability WorldLeestijd: 10 minuten

Afbeeldingsbeschrijving: Een professionele studiomicrofoon naast een opengeslagen leerboek met koptelefoon en audiobediening — het visuele kenmerk voor de productie van audioleermiddelen.

Een leerboek is geen podcast. Het heeft kopniveaus, genummerde opgaven, voetnoten, registers, vergelijkingen, ondertitelde diagrammen en een student die pagina 217 moet vinden midden in een herhalingssessie. Het als audio produceren betekent dat alles produceren — niet alleen de lopende tekst. In 2026 doen twee parallelle pipelines dat werk: de klassieke DAISY-keten die gespecialiseerde audio-uitgevers al een kwart eeuw ondersteunt, en een nieuwe AI-narration-keten die de productiekosten per uur in de afgelopen drie jaar met ruwweg een orde van grootte heeft verlaagd. Ze zijn niet uitwisselbaar. Waar ze samenkomen — wat er van DAISY overblijft, wat aan de synthesizer wordt overgelaten, wat bij een mens blijft — is het verhaal van het audioleermiddel in 2026.

Dit stuk is een productieprimaire voor mensen die deze boeken in opdracht geven, financieren en gebruiken: coördinatoren speciaal onderwijs, universiteitsdisabilityoffices, bibliotheken voor alternatieve formaten en de uitgeefteams van organisaties die werken aan de grenzen van toegankelijk onderwijs. Het beschrijft de DAISY-pipeline die een toegankelijk audioleermiddel produceert, de AI-narration-verschuiving die de upstream-economie herschrijft, de kosten-kwaliteitsafweging die beide zijden nu onderhandelen, de nauwkeurigheidsproblemen die niemand volledig heeft opgelost (wiskunde, eigennamen, code-switching-talen), de in 2025 gepubliceerde DAISY 4.0-specificatie en de grote producenten die bepalen welke boeken een student daadwerkelijk bereiken.

Wat “DAISY” werkelijk betekent

DAISY — het Digital Accessible Information System — is een specificatie, een consortium en een bestandsformaatfamilie. Het werd voor het eerst gepubliceerd in 1996 door een coalitie van gesproken-boek-bibliotheken die een manier nodig had om navigeerbare, gestructureerde audio te versturen die een cassettebandrecorder niet kon bieden. De twee specificaties die het formaat nog altijd verankeren zijn DAISY 2.02, uitgebracht in 2001 en nog steeds het formaat dat de meerderheid van de klassieke gesproken-boek-bibliotheken daadwerkelijk levert, en DAISY 3, geformaliseerd als ANSI/NISO Z39.86 in 2002 en herzien in 2012 en opnieuw in 2024. De update van 2024 — Z39.86-2024 — is de versie waarop de meeste huidige productietools zich richten, en de brugspecificatie tussen de klassieke wereld en DAISY 4.0.

Wat DAISY doet wat een MP3 niet kan: het draagt structurele navigatie (spring naar hoofdstuk 4, paragraaf 2, opgave 3), SMIL-synchronisatie (het audiobestand en de teksttekst worden in stap gehouden zodat de afspeelpositie in het ene altijd overeenkomt met het andere) en een metadatalaag die rijk genoeg is om voetnoten, zijbalken, paginanummers, tabelcellen en overslaanbare elementen zoals doorlopende koppen te beschrijven. Een DAISY-speler — Dolphin EasyReader, Voice Dream, de AMIS-referentiespeler, de Victor Reader Stratus-hardware — zet die structuren om in een toetsaanslag: een student kan vooruit stappen per zin, per alinea, per kopniveau 3 of per paginanummer, in hetzelfde boek.

De klassieke DAISY-productiepipeline

Het produceren van een DAISY-leerboek in de klassieke pipeline vergt zes afzonderlijke stadia en, voor een leerboek van 400 pagina’s, ruwweg zes tot twaalf weken doorlooptijd per titel bij een producent als Learning Ally of het Royal National Institute of Blind People (RNIB).

Stadium 1 — bronvoorbereiding. De uitgever levert een gedrukte PDF of, steeds vaker, een EPUB. De productie maakt het bestand schoon, scheidt de hoofdtekst van doorlopende koppen en voetteksten, markeert de koppenhiërarchie en exporteert een gestructureerde XHTML-leesvolgorde. Diagrammen en vergelijkingen worden gemarkeerd voor afzonderlijke verwerking.
Stadium 2 — narration. Een getrainde menselijke verteller neemt de lopende tekst op in een studiosessie. Voor een leerboek volgt de verteller een uitgeefstijlgids die beschrijft hoe tabellen worden gelezen, hoe diagrammen worden beschreven, hoe vakspecifieke terminologie wordt uitgesproken en hoe niet-vertaalde passages in een andere taal worden behandeld.
Stadium 3 — bewerking en kwaliteitsborging. Een tweede pass verwijdert ademgeluiden, herhaalt foutieve uitspraken en lijnt de opgenomen audio uit met de brontekst. Een kwaliteitslezer luistert mee met de gedrukte versie voor nauwkeurigheid.
Stadium 4 — SMIL-synchronisatie. Productiesoftware genereert een SMIL-bestand (Synchronized Multimedia Integration Language) dat elk zinsgrenspunt in de audio van een tijdstempel voorziet ten opzichte van de corresponderende span in de XHTML, waardoor de moment-voor-moment tekst-audiokaart ontstaat waarop DAISY-navigatie berust.
Stadium 5 — verpakking. De audio, de SMIL-track, de XHTML-tekst en een navigatiemanaifest worden gebundeld in een DAISY 2.02- of DAISY 3-pakket, gevalideerd tegen de conformiteitscontrole van het formaat en geüpload naar de distributiecatalogus van de producent.
Stadium 6 — distributie. Het pakket wordt via een producentspecifieke app of via de mondiale grensoverschrijdende Marrakesh-verdragsuitwisseling aan gemachtigde lezers geleverd bij partnerbiblotheken in andere jurisdicties.

De pipeline produceert een gezaghebbend, navigeerbaar, leswaardige boek. Het is ook duur. De kosten per afgewerkt uur audio in de klassieke menselijk-besproken DAISY-keten liggen in het bereik van circa $ 45 tot circa $ 75 bij de grote producenten — een cijfer dat relatief ongewijzigd is gebleven sinds het midden van de jaren 2010 en vrijwel geheel wordt bepaald door studiotijd, honoraria van vertellers en redactionele kwaliteitsborging.

De AI-narration-pipeline

De verandering die het gesprek over audioleermiddelen in 2024–26 in beweging heeft gebracht, is de komst van neurale tekst-naar-spraakstemmen die voor het eerst voldoende ononderscheidbaar zijn van een menselijke verteller dat de vraag of men ze moet gebruiken niet meer automatisch met “nee” wordt beantwoord. De shortlist van diensten die productiebeslissingen in 2026 sturen is klein en goed omschreven: ElevenLabs (waarvan het meertalige v3-model, uitgebracht in 2025, de referentie is voor Engelstalige leerboeknarration in de meeste huidige discussies); Speechify (waarvan het enterprise-aanbod van 2024 specifiek gericht is op onderwijs, met een langetermijnmodus en vooraf ingestelde academische stemmen); Amazon Polly Neural (de goedkoopste op schaal, met sterke SSML-ondersteuning); en OpenAI TTS HD (de meest verhalend klinkende algemene stem in de vergelijkende luistertests van toegankelijkheidsonderzoeksgroepen in 2025).

De vorm van een AI-besproken audioleermiddel-pipeline verschilt van de klassieke minder in stadia dan in economie. Bronvoorbereiding, structuurmarkering en verpakking blijven alle aanwezig. Stadia 2 en 3 — narration en bewerking — vallen samen in één geautomatiseerde stap: de gestructureerde tekst wordt met SSML-hints voor nadruk, uitspraak en pauzelengte aan de synthesizer aangeboden, en de synthesizer geeft audio terug. Een beperkte menselijke kwaliteitsborgingspass veegt vervolgens over de foutmodi (hieronder behandeld) die de synthesizer nog niet zelfstandig kan oplossen.

De kostenverschuiving is het grote nieuws. Waar de klassieke keten een afgewerkt uur produceert voor circa $ 45 tot circa $ 75, landt AI-narration op productieschaal tussen circa $ 3 en circa $ 7 per uur bij de grote aanbieders in 2026 — een tiendubbele reductie. Dat cijfer is wat de vraag heeft verschoven van “kunnen we het ons veroorloven dit boek te produceren” naar “welk boek mogen we niet produceren”. Een nationale bibliotheek voor alternatieve formaten die eerder 800 nieuwe titels per jaar selecteerde op basis van een vast budget, kan op datzelfde budget 6.000 tot 8.000 selecteren — mits de kwaliteit standhoudt in de categorieën waar het er echt toe doet.

De kosten-kwaliteitsafweging

”Kwaliteit” in de productie van audioleermiddelen is geen enkelvoudige dimensie. Het zijn er ten minste vier: verstaanbaarheid (kan een luisteraar begrijpen wat de stem zegt), natuurlijkheid (veroorzaakt langdurig luisteren vermoeidheid), nauwkeurigheid (zijn de woorden op de pagina de woorden die worden gelezen) en structurele getrouwheid (overleven tabellen, vergelijkingen en voetnoten in de audio). Moderne neurale TTS scoort nu vergelijkbaar met mensen op verstaanbaarheid en zit binnen één punt van natuurlijkheid op de standaard 5-punts Mean Opinion Score (MOS)-tests die door de spraaksynthese-onderzoeksgemeenschap worden gebruikt. Waar de kloof nog zichtbaar is, is bij nauwkeurigheid en structurele getrouwheid.

De vergelijkende luisterstudie van de American Foundation for the Blind van 2025 — het grootste gepubliceerde bewijsstuk over de kwestie — rekruteerde blinde universiteitsstudenten om overeenkomende passages te beluisteren uit scheikunde-, geschiedenis- en Spaanstalige literatuurleerboeken, beurtelings besproken door een mens en door ElevenLabs v3-stemmen. Het hoofdresultaat: op zinsniveau had de AI-narration de voorkeur of werd als gelijkwaardig beoordeeld in 71% van de proeven voor tekstdominante vakken (geschiedenis, filosofie, Engelse literatuur). Voor symbolendichte vakken (scheikunde, wiskunde, natuurkunde) had de AI de voorkeur of werd als gelijkwaardig beoordeeld in slechts 28% van de proeven, waarbij het verschil werd veroorzaakt door wiskundige-notatieweergave en de behandeling van gesubscripte formules door de AI-stem. De aanbeveling van de studie was niet verrassend en wordt nu operationeel aangehaald: AI-narration eerst, met een menselijke pass over de symbolendichte hoofdstukken.

De educatief interessante vraag is niet langer “mens of AI” — het is “welke zinnen hebben een mens nodig, en welke kunnen op schaal worden gesynthetiseerd”. Het antwoord is steeds vaker dat 80–90% van een leerboek kan worden gesynthetiseerd, maar de resterende 10–20% — vergelijkingen, eigennamen in onbekende talen, primaire-bron-citaten in archaïsche spelling — is waar een leerboek ophoudt een podcast te zijn.
De 80/20-productieregel, 2026

Wiskunde, eigennamen en het code-switching-probleem

De nauwkeurigheids-foutmodi die huidige neurale TTS nog niet heeft opgelost, zijn voorspelbaar genoeg dat producenten er nu al in de bronvoorbereidingsfase rekening mee houden in plaats van ze in de kwaliteitsborging te ontdekken.

Wiskunde. Vergelijkingen gecodeerd als MathML hebben een canonieke gesproken vorm — lees de integraal van a tot b van x kwadraat dx — die geen enkel algemeen TTS-systeem correct genereert. Productiepipelines leiden MathML nu via een speciaal wiskunde-naar-spraak-systeem (MathSpeak, de MathJax-toegankelijkheidsextensie of de open-source SRE-engine onderhouden door het Math-in-DAISY-project) voordat de resulterende Engelstalige tekst aan de stem-synthesizer wordt overgedragen. De DAISY 4.0-specificatie formaliseert deze routing als aanbevolen productiepraktijk.

Eigennamen. Persoonsnamen, plaatsnamen, organisatienamen en vakspecifieke terminologie worden voorspelbaar verkeerd uitgesproken. Een audit van het DAISY Consortium in 2024 van 50 uur AI-besproken educatieve inhoud vond misuitspraakniveaus van circa 14% in historische teksten (waar namen uit meerdere talen komen) en circa 22% in vreemde-taal-leerboeken (waar de namen de inhoud zijn). De maatregel is een per-titel-uitspraaklexicon — doorgaans 50 tot 300 items voor een leerboek van 400 pagina’s — dat tijdens de bronvoorbereiding wordt opgebouwd en als SSML-lexiconhints aan de synthesizer wordt aangeboden.

Code-switching-talen. Een geschiedenisleerboek dat Cicero in het Latijn citeert, een literatuurleerboek dat Poesjkin in het Russisch citeert, een economieleerboek dat Piketty in het Frans citeert — dit zijn de zinnen waar een eentalige TTS-stem het meest zichtbaar faalt. ElevenLabs v3 en de TTS-update van OpenAI van 2025 leveren beide meertalige eenstem-modellen die midden in een uiting van taal wisselen, maar de kwaliteit van de wissel is ongelijkmatig. Het betrouwbare productieparatroon in 2026 is de buitenlandse-taal-span expliciet te taggen, te routeren naar een taalspecifieke stem en de audio op de SMIL-laag weer samen te voegen.

DAISY 4.0: wat de specificatie van 2025 verandert

DAISY 4.0, gepubliceerd in conceptvorm door het DAISY Consortium eind 2025, is de eerste formaatrevisie in een decennium. Het ontwerpuitgangspunt is dat het geproduceerde object niet hoeft te kiezen tussen een audioboek en een tekst-en-beeld-boek — het moet beide tegelijk zijn, waarbij de speler kiest wat aan de lezer wordt gepresenteerd.

Vier veranderingen zijn het meest relevant voor de productie van leerboeken. Ten eerste, EPUB 3-afstemming: DAISY 4.0 is structureel een EPUB 3-pakket waaraan audio is toegevoegd, in plaats van een parallel formaat met EPUB als exportdoel. Een producent die een EPUB 3-leerboek beheert, kan zijn DAISY 4.0-audio-editie produceren door tracks toe te voegen, niet door bestanden te converteren. Ten tweede, native MathML: vergelijkingen reizen als MathML door tot de speler, die tijdens het afspelen beslist of ze visueel worden weergegeven, hardop worden voorgelezen of beide. Ten derde, multi-stem-herkomstmetadata: een DAISY 4.0-pakket kan gemengde menselijk-besproken, AI-besproken en wiskunde-engine-weergegeven spans bevatten, waarbij elke span in de metadata is toegeschreven aan zijn productiemethode — een transparantievereiste die een opkomende reeks nationale aanbestedingsregels begint te vereisen. Ten vierde, navigatie-uitbreidingen voor de structurele items die leerboeken altijd hebben gedragen maar die DAISY 3 onhandig afhandelde: genummerde opgaven, opgavensets, woordenlijst-terug-referenties en verwijzingen over meerdere delen heen.

De overgangstijdlijn die de meeste producenten openbaar opgeven is conservatief. Het DAISY Consortium verwacht dat de meerderheid van nieuwe educatieve titels tegen 2027–28 als DAISY 4.0 zal worden uitgebracht, waarbij de klassieke DAISY 2.02-catalogus voor onbepaalde tijd blijft bestaan aan de spelerkant, omdat de geïnstalleerde basis van speciale hardwarespelers niet op afstand kan worden bijgewerkt.

De grote producenten en wat zij produceren

Learning Ally, de in de VS gevestigde non-profitorganisatie opgericht in 1948 als Recording for the Blind, bezit de grootste Engelstalige audioleermiddelencatalogus ter wereld — circa 80.000 titels per 2026 — en is grotendeels menselijk besproken, met een netwerk van vrijwillige vertellers van circa 1.000 actieve stemmen. Het strategiepaper van 2025 committeerde aan een AI-ondersteunde pipeline (AI-first narration met menselijke kwaliteitsborging op symbolendichte hoofdstukken) voor wiskunde- en wetenschapstitels op schoolniveau, terwijl menselijke narration wordt behouden voor de literaire canon.

Bookshare, beheerd door Benetech, levert een EPUB-first catalogus — meer dan 1,3 miljoen titels in 2026, in zowel algemene als educatieve categorieën — die de onderliggende tekst koppelt aan gesynthetiseerde audio die door de speler van de gebruiker wordt weergegeven in plaats van vooraf geproduceerd bij de uitgifte. Het model is het goedkoopst op schaal en het meest afgestemd op de speler-beslist-architectuur van DAISY 4.0.

RNIB Talking Books in het VK bedient circa 25.000 actieve leden en produceert jaarlijks circa 1.500 nieuwe titels, voornamelijk via menselijke narration met een pilotprogramma 2024–26 voor AI-narration bij non-fictie. De catalogus is de referentie voor het publiek van leerboeken voor het Britse curriculum.

De IFLA Libraries Serving Persons with Print Disabilities (LPD) Section coördineert het mondiale producentennetwerk en beheert de Accessible Books Consortium (ABC) grensoverschrijdende catalogus onder het Marrakesh-verdrag — het mechanisme waarmee een boek geproduceerd in een verdragsstaat kan worden geleend over grenzen heen aan gemachtigde lezers in een andere staat. De catalogusuitwisseling van ABC in 2024 rapporteerde meer dan 850.000 grensoverschrijdende titeloverdrachten, een orde van grootte hoger dan het cijfer van vijf jaar eerder, met de groei geconcentreerd in educatieve materialen.

Wat dit betekent voor de student in 2026

Het praktische effect van de veranderingen van 2024–26 is dat de catalogus beschikbaar voor een blinde of slechtziende student in een grote Engelstalige jurisdictie ruwweg een orde van grootte groter is dan aan het begin van het decennium, en de vertraging tussen een gedrukte publicatie en een toegankelijke audio-editie van een jaar of langer terugloopt naar weken. De vertraging voor leerboeken specifiek — historisch de langzaamste categorie vanwege wiskundige en structurele complexiteit — sluit langzamer, maar het sluit.

Wat niet is veranderd, is de minimumdrempel voor aanvaardbare kwaliteit. Een leerboek moet nog steeds navigeerbaar, nauwkeurig en gesynchroniseerd zijn met zijn brontekst. Het ontwerp van DAISY 4.0 en de economie van de AI-narration-pipeline maken die drempel goedkoper te halen dan ooit. De producenten die het best gepositioneerd zijn voor de rest van het decennium zijn degenen die de keuze niet langer kadreren als mens of AI, maar als welke zinnen welke methode nodig hebben — en de disability-serviceafdelingen bij universiteiten en scholen die gestopt zijn met het accepteren van “we kunnen dit niet betalen te produceren” als definitief antwoord.

Lees meer van Disability World over de stand van toegankelijkheid in dovenenonderwijs wereldwijd, over nationale toegankelijkheidsregelgeving en over het bredere toegankelijkheidsverslaggevingsrecord 2026.