Produire des manuels audio : du DAISY à la narration par IA

Par Disability WorldTemps de lecture : 10 minutes

Description de l’image : un microphone de studio professionnel posé à côté d’un manuel ouvert, avec un casque et des commandes audio — le marqueur visuel de la production de manuels audio.

Un manuel scolaire n’est pas un podcast. Il comporte des niveaux de titres, des exercices numérotés, des notes de bas de page, des index, des équations, des schémas légendés, et un étudiant qui doit trouver la page 217 en pleine session de révision. Le produire sous forme audio implique de tout produire — pas seulement la prose. En 2026, deux pipelines parallèles assurent ce travail : la chaîne DAISY legacy qui a porté les éditeurs spécialisés depuis un quart de siècle, et une nouvelle chaîne de narration par IA qui, au cours des trois dernières années, a réduit le coût de production à l’heure d’environ un ordre de grandeur. Ils ne sont pas interchangeables. Là où ils se rejoignent — ce qui survit du DAISY, ce qui est confié au synthétiseur, ce qui reste à un humain — est l’histoire du manuel audio de 2026.

Ce texte est un guide de production destiné aux personnes qui commandent, financent et utilisent ces livres : les coordinateurs d’enseignement spécialisé, les services d’accessibilité des universités, les bibliothécaires de formats alternatifs, et les équipes éditoriales des organisations travaillant aux marges de l’éducation accessible. Il décrit le pipeline DAISY qui produit un manuel audio accessible, le basculement vers la narration IA qui refaçonne l’économie en amont, le compromis coût-qualité que les deux parties négocient désormais, les problèmes de précision que personne n’a complètement résolus (mathématiques, noms propres, alternance de langues), la spécification DAISY 4.0 publiée en 2025, et les principaux producteurs qui décident quels livres parviennent effectivement à l’étudiant.

Ce que « DAISY » signifie réellement

DAISY — le Digital Accessible Information System — est une spécification, un consortium et une famille de formats de fichiers. Il a été publié pour la première fois en 1996 par une coalition de bibliothèques de livres parlés qui avaient besoin d’un moyen de diffuser l’audio navigable et structuré qu’une cassette ne pouvait pas offrir. Les deux spécifications qui ancrent encore le format sont DAISY 2.02, publiée en 2001 et toujours le format que la majorité des bibliothèques de livres parlés legacy servent effectivement, et DAISY 3, formalisé sous le nom ANSI/NISO Z39.86 en 2002 et révisé en 2012 puis en 2024. La mise à jour de 2024 — Z39.86-2024 — est la version que ciblent la plupart des outils de production actuels, et la spécification pont entre le monde legacy et DAISY 4.0.

Ce que DAISY fait qu’un MP3 ne peut pas faire : il porte une navigation structurelle (aller au chapitre 4, section 2, exercice 3), une synchronisation SMIL (le fichier audio et la piste texte sont maintenus en parfaite synchronie, de sorte que la position de lecture dans l’un correspond toujours à l’autre), et une couche de métadonnées suffisamment riche pour décrire les notes de bas de page, les encadrés, les numéros de page, les cellules de tableaux et les éléments à ignorer ou inclure tels que les en-têtes courants. Un lecteur DAISY — Dolphin EasyReader, Voice Dream, le lecteur de référence AMIS, le matériel Victor Reader Stratus — transforme ces structures en une frappe de touche : un étudiant peut avancer par phrase, par paragraphe, par niveau de titre 3 ou par numéro de page, sur le même livre.

Le pipeline de production DAISY legacy

Produire un manuel DAISY dans le pipeline legacy comprend six étapes distinctes et, pour un manuel de 400 pages, environ six à douze semaines de délai par titre chez un producteur comme Learning Ally ou le Royal National Institute of Blind People (RNIB).

Étape 1 — Préparation de la source. L’éditeur fournit un PDF imprimé ou, de plus en plus, un EPUB. La production nettoie le fichier, sépare le texte principal des en-têtes et pieds de page courants, marque la hiérarchie des titres, et exporte un ordre de lecture XHTML structuré. Les schémas et équations sont signalés pour traitement séparé.
Étape 2 — Narration. Un narrateur humain formé enregistre la prose en studio. Pour un manuel, le narrateur suit un guide de style de l’éditeur qui précise comment lire les tableaux, comment décrire les schémas, comment prononcer la terminologie propre à la discipline, et comment traiter les passages en langue étrangère non traduits.
Étape 3 — Montage et contrôle qualité. Un second passage supprime les bruits de respiration, reprend les prononciations incorrectes et aligne l’audio enregistré sur le texte source. Un lecteur QA écoute en regard de l’imprimé pour vérifier l’exactitude.
Étape 4 — Synchronisation SMIL. Le logiciel de production génère un fichier SMIL (Synchronized Multimedia Integration Language) qui horodate chaque limite de phrase dans l’audio par rapport à la balise correspondante dans le XHTML, produisant la correspondance texte-audio instant par instant sur laquelle repose la navigation DAISY.
Étape 5 — Empaquetage. L’audio, la piste SMIL, le texte XHTML et un manifeste de navigation sont regroupés dans un package DAISY 2.02 ou DAISY 3, validés par le vérificateur de conformité du format, et téléversés dans le catalogue de distribution du producteur.
Étape 6 — Distribution. Le package est servi aux lecteurs autorisés via une application propre au producteur ou par l’échange transfrontalier mondial du Traité de Marrakech vers les bibliothèques partenaires d’autres juridictions.

Le pipeline produit un livre faisant autorité, navigable, de qualité scolaire. Il est aussi coûteux. Le coût par heure d’audio fini, dans la chaîne DAISY humaine legacy, se situe dans la fourchette d’environ 45 à environ 75 dollars américains chez les principaux producteurs — un chiffre relativement stable depuis le milieu des années 2010, déterminé presque entièrement par le temps de studio, les honoraires du narrateur et le contrôle qualité éditorial.

Le pipeline de narration par IA

Le changement qui a transformé la conversation sur les manuels audio en 2024–26 est l’apparition de voix de synthèse vocale neuronale qui, pour la première fois, sont suffisamment indiscernables d’un narrateur humain pour que la question de leur utilisation ne soit plus automatiquement répondue par « non ». La liste restreinte des services qui orientent les décisions de production en 2026 est courte et bien définie : ElevenLabs (dont le modèle multilingue v3, sorti en 2025, est la référence pour la narration de manuels en anglais dans la plupart des discussions actuelles) ; Speechify (dont l’offre entreprise de 2024 cible spécifiquement l’éducation, avec un mode longue durée et des voix académiques préconfigurées) ; Amazon Polly Neural (le moins cher à grande échelle, avec un fort support SSML) ; et OpenAI TTS HD (la voix généraliste au rendu narratif le plus convaincant dans les tests d’écoute comparative menés par des groupes de recherche sur l’accessibilité en 2025).

La structure d’un pipeline de manuel audio narré par IA diffère de la version legacy moins dans ses étapes que dans son économie. La préparation de la source, le balisage structurel et l’empaquetage demeurent. Les étapes 2 et 3 — narration et montage — fusionnent en une seule étape automatisée : le texte structuré est soumis au synthétiseur avec des indications SSML pour l’emphase, la prononciation et la longueur des pauses, et le synthétiseur renvoie l’audio. Un passage QA humain réduit balaie ensuite les modes d’échec (décrits ci-dessous) que le synthétiseur ne peut toujours pas résoudre seul.

Le changement de coût est le chiffre clé. Là où la chaîne legacy produit une heure finie entre environ 45 et environ 75 dollars, la narration par IA à grande échelle se situe entre environ 3 et environ 7 dollars par heure chez les principaux fournisseurs en 2026 — une réduction d’un facteur 10. C’est ce chiffre qui a fait passer la question de « pouvons-nous nous permettre de produire ce livre » à « quel livre ne devrions-nous pas produire ». Une bibliothèque nationale de formats alternatifs qui sélectionnait auparavant 800 nouveaux titres par an sur un budget fixe peut, avec le même budget, en sélectionner 6 000 à 8 000 — à condition que la qualité tienne dans les catégories où elle compte réellement.

Le compromis coût-qualité

La « qualité » dans la production de manuels audio n’est pas une dimension unique. Elle en comporte au moins quatre : l’intelligibilité (l’auditeur peut-il comprendre ce que dit la voix), le naturel (l’écoute prolongée provoque-t-elle de la fatigue), l’exactitude (les mots sur la page sont-ils les mots qui sont lus), et la fidélité structurelle (les tableaux, équations et notes de bas de page survivent-ils dans l’audio). Les synthèses vocales neuronales modernes atteignent désormais des scores comparables à ceux des humains sur l’intelligibilité et à moins d’un point sur le naturel selon les tests standard MOS (Mean Opinion Score) en 5 points utilisés par la communauté de recherche en synthèse vocale. L’écart reste visible sur l’exactitude et la fidélité structurelle.

L’étude comparative d’écoute 2025 de l’American Foundation for the Blind — la plus grande publication sur le sujet — a recruté des étudiants universitaires aveugles pour écouter des passages extraits de manuels de chimie, d’histoire et de littérature espagnole, narrés alternativement par des voix humaines et par des voix ElevenLabs v3. Le résultat principal : au niveau de la phrase, la narration par IA était préférée ou jugée équivalente dans 71 % des essais pour les matières à dominante prose (histoire, philosophie, littérature anglaise). Pour les matières à forte densité symbolique (chimie, mathématiques, physique), l’IA était préférée ou jugée équivalente dans seulement 28 % des essais, l’écart étant dû au rendu des notations mathématiques et à la gestion des formules à exposants par la voix IA. La recommandation de l’étude est sans surprise et est désormais citée en pratique : narration IA en premier, avec un passage humain sur les chapitres à forte densité symbolique.

La question intéressante sur le plan éducatif n’est plus « humain ou IA » — c’est « quelles phrases nécessitent un humain, et lesquelles peuvent être synthétisées à grande échelle ». La réponse est de plus en plus que 80 à 90 % d’un manuel peuvent être synthétisés, mais que les 10 à 20 % restants — équations, noms propres dans des langues peu familières, citations de sources primaires en orthographe archaïque — sont l’endroit où un manuel cesse d’être un podcast.
La règle de production 80/20, 2026

Mathématiques, noms propres et le problème de l’alternance de langues

Les modes d’échec de précision que la synthèse vocale neuronale actuelle n’a pas résolus sont suffisamment prévisibles pour que les producteurs les planifient désormais à l’étape de préparation de la source plutôt que de les découvrir lors du contrôle qualité.

Mathématiques. Les équations encodées en MathML ont une forme orale canonique — lire l’intégrale de a à b de x au carré dx — qu’aucun moteur TTS généraliste ne génère correctement. Les pipelines de production acheminent désormais le MathML via un moteur de mathématiques-vers-parole dédié (MathSpeak, l’extension d’accessibilité MathJax, ou le moteur SRE open source maintenu par le projet Math-in-DAISY) avant de transmettre le texte anglais résultant au synthétiseur de voix narratrice. La spécification DAISY 4.0 formalise ce routage comme un schéma de production recommandé.

Noms propres. Les noms de personnes, de lieux, d’organisations et la terminologie propre à la discipline sont prononcés de façon prévisiblement incorrecte. Un audit 2024 du Consortium DAISY portant sur 50 heures de contenu éducatif narré par IA a trouvé des taux de mauvaise prononciation des noms d’environ 14 % dans les textes d’histoire (où les noms couvrent plusieurs langues) et d’environ 22 % dans les manuels de langues étrangères (où les noms constituent le contenu). La solution est un lexique de prononciation par titre — généralement de 50 à 300 entrées pour un manuel de 400 pages — élaboré lors de la préparation de la source et fourni au synthétiseur sous forme d’indications de lexique SSML.

Alternance de langues. Un manuel d’histoire citant Cicéron en latin, un manuel de littérature citant Pouchkine en russe, un manuel d’économie citant Piketty en français — ce sont les phrases où une voix TTS monolingue échoue le plus visiblement. ElevenLabs v3 et la mise à jour TTS 2025 d’OpenAI proposent tous deux des modèles multilingues à voix unique qui alternent les langues en milieu d’énoncé, mais la qualité du basculement est inégale. Le schéma de production fiable en 2026 consiste à baliser explicitement la séquence en langue étrangère, à la router vers une voix spécifique à cette langue, et à recoller l’audio au niveau de la couche SMIL.

DAISY 4.0 : ce que change la spécification 2025

DAISY 4.0, publié en version préliminaire par le Consortium DAISY fin 2025, est la première révision du format en une décennie. Son point de départ est que l’objet produit ne doit pas avoir à choisir entre un livre audio et un livre avec texte et images — il doit être les deux simultanément, le lecteur décidant ce qu’il présente à l’utilisateur.

Quatre changements sont les plus importants pour la production de manuels. Premièrement, l’alignement EPUB 3 : DAISY 4.0 est structurellement un package EPUB 3 auquel de l’audio a été ajouté, plutôt qu’un format parallèle avec EPUB comme cible d’export. Un producteur qui maintient un manuel EPUB 3 peut produire son édition audio DAISY 4.0 en ajoutant des pistes, et non en convertissant des fichiers. Deuxièmement, le MathML natif : les équations voyagent en MathML jusqu’au lecteur, qui décide à l’exécution s’il les rend visuellement, à voix haute, ou les deux. Troisièmement, les métadonnées de provenance multi-voix : un package DAISY 4.0 peut contenir des séquences narrées par un humain, narrées par IA et rendues par un moteur mathématique, chaque séquence étant attribuée dans les métadonnées à sa méthode de production — une exigence de transparence qu’un ensemble émergent de règles nationales de marchés publics commence à imposer. Quatrièmement, des extensions de navigation pour les éléments structurels que les manuels ont toujours comportés mais que DAISY 3 gérait maladroitement : les exercices numérotés, les séries de problèmes, les renvois au glossaire et les références entre volumes.

Le calendrier de transition que la plupart des producteurs annoncent publiquement est prudent. Le Consortium DAISY prévoit que la majorité des nouveaux titres éducatifs seront livrés en DAISY 4.0 d’ici 2027–28, le catalogue DAISY 2.02 legacy persistant indéfiniment côté lecteur, car le parc installé de lecteurs matériels dédiés ne peut pas être mis à jour à distance.

Les principaux producteurs et ce qu’ils produisent

Learning Ally, l’organisation à but non lucratif américaine fondée en 1948 sous le nom de Recording for the Blind, détient le plus grand catalogue de manuels audio en anglais au monde — environ 80 000 titres en 2026 — et reste essentiellement narré par des humains, avec un réseau de narrateurs bénévoles d’environ 1 000 voix actives. Son document de stratégie 2025 s’engage à adopter un pipeline assisté par IA (narration IA en premier avec un contrôle qualité humain sur les chapitres à forte densité symbolique) pour les manuels scolaires de mathématiques et de sciences, tout en préservant la narration humaine pour le canon littéraire.

Bookshare, géré par Benetech, diffuse un catalogue EPUB-first — plus de 1,3 million de titres en 2026, couvrant les catégories grand public et éducation — qui associe le texte sous-jacent à un audio synthétisé rendu par le lecteur de l’utilisateur plutôt que précuisiné à la production. Le modèle est le moins cher à grande échelle et le plus aligné avec l’architecture « c’est le lecteur qui décide » de DAISY 4.0.

RNIB Talking Books au Royaume-Uni sert environ 25 000 membres actifs et produit environ 1 500 nouveaux titres par an, principalement par narration humaine avec un programme pilote 2024–26 sur la narration IA pour les ouvrages de non-fiction. Son catalogue est la référence pour le public scolaire britannique.

La Section IFLA des bibliothèques au service des personnes ayant des difficultés de lecture (Libraries Serving Persons with Print Disabilities, LPD) coordonne le réseau mondial de producteurs et gère le catalogue transfrontalier de l’Accessible Books Consortium (ABC) au titre du Traité de Marrakech — le mécanisme par lequel un livre produit dans un pays signataire peut être prêté à des lecteurs autorisés dans un autre. L’échange de catalogue ABC 2024 a enregistré plus de 850 000 transferts transfrontaliers de titres, un ordre de grandeur supérieur au chiffre d’il y a cinq ans, avec une croissance concentrée sur les matériels éducatifs.

Ce que cela signifie pour l’étudiant en 2026

L’effet pratique des changements de 2024–26 est que le catalogue disponible pour un étudiant aveugle ou malvoyant dans une grande juridiction anglophone est environ un ordre de grandeur plus grand qu’en début de décennie, et le délai entre une publication imprimée et une édition audio accessible se réduit d’un an ou plus à quelques semaines. Le délai pour les manuels spécifiquement — historiquement la catégorie la plus lente en raison de la complexité mathématique et structurelle — se réduit plus lentement, mais il se réduit.

Ce qui n’a pas changé, c’est le plancher de qualité acceptable. Un manuel doit encore être navigable, exact et synchronisé avec son texte source. La conception de DAISY 4.0 et l’économie du pipeline de narration par IA rendent ce plancher moins coûteux à atteindre qu’il ne l’a jamais été. Les producteurs les plus susceptibles de bien s’en sortir pour le reste de la décennie sont ceux qui ont cessé de formuler le choix comme humain ou IA et ont commencé à se demander quelles phrases nécessitent quelle méthode — et les services d’accessibilité dans les universités et les écoles qui ont cessé d’accepter « nous n’avons pas les moyens de produire cela » comme réponse définitive.

Disability World propose d’autres lectures sur l’état de l’accès à l’éducation pour les sourds dans le monde, sur les réglementations nationales en matière d’accessibilité, et sur l’ensemble du bilan 2026 en matière d’accessibilité.