Producción de audiolibros de texto en 2026: DAISY a IA

Por Disability WorldTiempo de lectura: 10 minutos

Descripción de la imagen: un micrófono de estudio profesional junto a un libro de texto abierto con auriculares y controles de audio, el marcador visual de la producción de audiolibros de texto.

Un libro de texto no es un pódcast. Tiene niveles de encabezado, ejercicios numerados, notas al pie, índices, ecuaciones, diagramas con pie de foto y un estudiante que necesita encontrar la página 217 en medio de una sesión de repaso. Producirlo en formato audio implica producir todo eso, no solo el texto corrido. En 2026, dos flujos de trabajo paralelos realizan esa labor: la cadena DAISY heredada que ha servido a los editores especializados en audio durante un cuarto de siglo, y una nueva cadena de narración con IA que, en los últimos tres años, ha reducido el coste de producción por hora en aproximadamente un orden de magnitud. No son intercambiables. Dónde se encuentran —qué sobrevive del DAISY, qué se cede al sintetizador, qué permanece con el ser humano— es la historia del audiolibro de texto de 2026.

Este artículo es un manual de producción para quienes encargan, financian y utilizan estos libros: coordinadores de educación especial, oficinas de discapacidad universitarias, bibliotecarios de formatos alternativos y los equipos editoriales de organizaciones que trabajan en los márgenes de la educación accesible. Recorre el flujo de trabajo DAISY que produce un audiolibro de texto accesible, el giro hacia la narración con IA que está rehaciendo la economía de la cadena ascendente, la disyuntiva coste-calidad que ambas partes negocian ahora, los problemas de precisión que nadie ha resuelto del todo (matemáticas, nombres propios, cambio de código lingüístico), la especificación DAISY 4.0 publicada en 2025 y los principales productores que determinan qué libros llegan realmente a los estudiantes.

Qué significa realmente «DAISY»

DAISY —el Sistema de Información Digital Accesible— es una especificación, un consorcio y una familia de formatos de archivo. Fue publicado por primera vez en 1996 por una coalición de bibliotecas de libros hablados que necesitaba una forma de distribuir el audio navegable y estructurado que una cinta de casete no podía ofrecer. Las dos especificaciones que siguen anclando el formato son DAISY 2.02, publicado en 2001 y todavía el formato que sirve la mayoría de las bibliotecas de libros hablados heredadas, y DAISY 3, formalizado como ANSI/NISO Z39.86 en 2002 y revisado en 2012 y de nuevo en 2024. La actualización de 2024 —Z39.86-2024— es la versión a la que apunta la mayoría de las herramientas de producción actuales, y el puente entre el mundo heredado y DAISY 4.0.

Lo que DAISY hace que un MP3 no puede: incorpora navegación estructural (saltar al capítulo 4, sección 2, ejercicio 3), sincronización SMIL (el archivo de audio y la pista de texto se mantienen alineados de modo que la posición de reproducción en uno siempre se corresponde con la del otro) y una capa de metadatos lo suficientemente rica como para describir notas al pie, recuadros, números de página, celdas de tabla y elementos de activación/desactivación como encabezados corridos. Un reproductor DAISY —Dolphin EasyReader, Voice Dream, el reproductor de referencia AMIS, el hardware Victor Reader Stratus— convierte esas estructuras en una pulsación de tecla: un estudiante puede avanzar por frase, por párrafo, por nivel de encabezado 3 o por número de página en el mismo libro.

El flujo de trabajo heredado de producción DAISY

Producir un libro de texto DAISY con el flujo de trabajo heredado requiere seis etapas diferenciadas y, para un libro de texto de 400 páginas, aproximadamente entre seis y doce semanas de tiempo transcurrido por título en un productor como Learning Ally o el Royal National Institute of Blind People (RNIB).

Etapa 1 — preparación de la fuente. El editor suministra un PDF impreso o, cada vez más, un EPUB. La producción limpia el archivo, separa el texto principal de los encabezados y pies de página corridos, marca la jerarquía de encabezados y exporta un orden de lectura XHTML estructurado. Los diagramas y ecuaciones se señalan para su tratamiento aparte.
Etapa 2 — narración. Un narrador humano con formación graba el texto en una sesión de estudio. Para un libro de texto, el narrador sigue una guía de estilo del editor que indica cómo leer tablas, cómo describir diagramas, cómo pronunciar la terminología específica de la materia y cómo tratar los pasajes en lengua extranjera sin traducir.
Etapa 3 — edición y control de calidad. Un segundo pase elimina ruidos de respiración, retoma mispronunciaciones y alinea el audio grabado con el texto fuente. Un lector de control de calidad escucha comparando con el impreso para verificar la precisión.
Etapa 4 — sincronización SMIL. El software de producción genera un archivo SMIL (Synchronized Multimedia Integration Language) que marca el tiempo de cada límite de frase en el audio con respecto al tramo correspondiente del XHTML, produciendo la correspondencia texto-audio momento a momento en la que se basa la navegación DAISY.
Etapa 5 — empaquetado. El audio, la pista SMIL, el texto XHTML y un manifiesto de navegación se agrupan en un paquete DAISY 2.02 o DAISY 3, se validan con el verificador de conformidad del formato y se cargan en el catálogo de distribución del productor.
Etapa 6 — distribución. El paquete se sirve a los lectores autorizados a través de una aplicación específica del productor o mediante el intercambio transfronterizo del Tratado de Marrakech con las bibliotecas asociadas de otras jurisdicciones.

El flujo de trabajo produce un libro autorizado, navegable y de calidad académica. También es caro. El coste por hora de audio terminado, en la cadena DAISY narrada por humanos, se sitúa en el intervalo de aproximadamente 45 a aproximadamente 75 dólares estadounidenses entre los principales productores, una cifra que no ha cambiado sustancialmente desde mediados de la década de 2010 y que está impulsada casi en su totalidad por el tiempo de estudio, los honorarios del narrador y el control de calidad editorial.

El flujo de trabajo de narración con IA

El cambio que ha movido la conversación sobre los audiolibros de texto en 2024–26 es la llegada de voces de síntesis de voz neural que son, por primera vez, lo suficientemente indistinguibles de un narrador humano como para que la pregunta de si utilizarlas ya no se responda automáticamente con «no». El listado de servicios que impulsan las decisiones de producción en 2026 es pequeño y bien definido: ElevenLabs (cuyo modelo multilingüe v3, publicado en 2025, es la referencia para la narración en inglés de libros de texto en la mayoría de las conversaciones actuales); Speechify (cuya oferta empresarial de 2024 se dirige específicamente a la educación, con un modo de largo alcance y voces académicas prediseñadas); Amazon Polly Neural (el más económico a escala, con un sólido soporte SSML); y OpenAI TTS HD (la voz de uso general con mayor naturalidad narrativa en las pruebas de escucha comparativa realizadas por grupos de investigación en accesibilidad en 2025).

La forma del flujo de trabajo de un audiolibro de texto narrado con IA difiere del heredado menos en sus etapas que en su economía. La preparación de la fuente, el marcado de la estructura y el empaquetado se mantienen. Las etapas 2 y 3 —narración y edición— se colapsan en un único paso automatizado: el texto estructurado se alimenta al sintetizador con indicaciones SSML de énfasis, pronunciación y duración de las pausas, y el sintetizador devuelve el audio. Un pase reducido de control de calidad humano revisa a continuación los modos de fallo (tratados más adelante) que el sintetizador aún no puede resolver sin ayuda.

El cambio de coste es el titular. Mientras que la cadena heredada produce una hora terminada a aproximadamente 45–75 dólares, la narración con IA a escala de producción se sitúa entre aproximadamente 3 y aproximadamente 7 dólares por hora en los principales proveedores en 2026, una reducción de 10 veces. Esa cifra es la que ha desplazado la pregunta de «¿podemos permitirnos producir este libro?» a «¿qué libro no deberíamos producir?». Una biblioteca nacional de formatos alternativos que antes seleccionaba 800 nuevos títulos al año con un presupuesto fijo puede, con el mismo presupuesto, seleccionar entre 6.000 y 8.000, siempre que la calidad se mantenga en las categorías donde realmente importa.

La disyuntiva coste-calidad

La «calidad» en la producción de audiolibros de texto no es una dimensión única. Son al menos cuatro: inteligibilidad (¿puede un oyente comprender lo que dice la voz?), naturalidad (¿provoca fatiga la escucha prolongada?), precisión (¿son las palabras que se leen las que aparecen en la página?) y fidelidad estructural (¿sobreviven al audio las tablas, ecuaciones y notas al pie?). La síntesis de voz neural moderna alcanza ya puntuaciones comparables a las humanas en inteligibilidad y se sitúa a un solo punto de la naturalidad en las pruebas estándar de Puntuación de Opinión Media (MOS) de 5 puntos utilizadas por la comunidad de investigación en síntesis de voz. Donde la brecha sigue siendo visible es en la precisión y la fidelidad estructural.

El estudio comparativo de escucha de 2025 de la American Foundation for the Blind —la mayor pieza de evidencia publicada sobre la cuestión— reclutó a estudiantes universitarios ciegos para escuchar pasajes de libros de texto de química, historia y literatura española, narrados alternativamente por voces humanas y por voces de ElevenLabs v3. El resultado principal: a nivel de frase, la narración con IA fue preferida o valorada como equivalente en el 71 % de los ensayos para materias con predominio de prosa (historia, filosofía, literatura inglesa). Para materias con alta densidad de símbolos (química, matemáticas, física) la IA fue preferida o valorada como equivalente solo en el 28 % de los ensayos, con una brecha impulsada por la representación de la notación matemática y el tratamiento que la voz de IA hacía de las fórmulas con subíndices. La recomendación del estudio era previsible y ahora se cita operativamente: narración con IA en primer lugar, con un pase humano en los capítulos con alta densidad de símbolos.

La pregunta educativamente interesante ya no es «humano o IA», sino «qué frases necesitan un humano y cuáles pueden sintetizarse a escala». La respuesta es cada vez más que el 80–90 % de un libro de texto puede sintetizarse, pero el 10–20 % restante —ecuaciones, nombres propios en idiomas poco familiares, citas de fuentes primarias con ortografía arcaica— es donde un libro de texto deja de ser un pódcast.
La regla de producción 80/20, 2026

Matemáticas, nombres propios y el problema del cambio de código

Los modos de fallo de precisión que la síntesis de voz neural actual no ha resuelto son suficientemente predecibles como para que los productores los planifiquen en la etapa de preparación de la fuente, en lugar de descubrirlos en el control de calidad.

Matemáticas. Las ecuaciones codificadas en MathML tienen una forma hablada canónica —léase: la integral de a a b de x al cuadrado dx— que ningún motor de síntesis de voz de uso general genera correctamente. Los flujos de trabajo de producción ahora enrutan el MathML a través de un motor dedicado de matemáticas a voz (MathSpeak, la extensión de accesibilidad de MathJax o el motor de código abierto SRE mantenido por el proyecto Math-in-DAISY) antes de ceder el texto resultante en inglés al sintetizador de voz-narrador. La especificación DAISY 4.0 formaliza este enrutamiento como patrón de producción recomendado.

Nombres propios. Los nombres de personas, lugares, organizaciones y terminología específica de la materia se pronuncian incorrectamente de manera predecible. Una auditoría de 2024 del DAISY Consortium sobre 50 horas de contenido educativo narrado con IA encontró tasas de pronunciación incorrecta de nombres de aproximadamente el 14 % en textos de historia (donde los nombres abarcan múltiples idiomas) y de aproximadamente el 22 % en libros de texto de lenguas extranjeras (donde los nombres son el contenido). La mitigación consiste en un léxico de pronunciación por título, que normalmente comprende entre 50 y 300 entradas para un libro de texto de 400 páginas, elaborado durante la preparación de la fuente y suministrado al sintetizador como indicaciones de léxico SSML.

Cambio de código lingüístico. Un libro de texto de historia que cita a Cicerón en latín, un libro de literatura que cita a Pushkin en ruso, un libro de economía que cita a Piketty en francés: estas son las frases donde una voz de síntesis monolingüe falla de manera más visible. Los modelos de voz única multilingüe de ElevenLabs v3 y la actualización TTS de OpenAI de 2025 permiten cambiar de idioma a mitad de frase, pero la calidad del cambio es desigual. El patrón de producción fiable en 2026 consiste en etiquetar explícitamente el tramo en lengua extranjera, enrutarlo a una voz específica del idioma y volver a ensamblar el audio en la capa SMIL.

DAISY 4.0: qué cambia la especificación de 2025

DAISY 4.0, publicado en forma de borrador por el DAISY Consortium a finales de 2025, es la primera revisión del formato en una década. Su punto de partida de diseño es que el objeto producido no debería tener que elegir entre un audiolibro y un libro de texto e imagen: debería ser ambos simultáneamente, con el reproductor decidiendo qué mostrar al lector.

Cuatro cambios importan más para la producción de libros de texto. En primer lugar, la alineación con EPUB 3: DAISY 4.0 es estructuralmente un paquete EPUB 3 con audio añadido, en lugar de un formato paralelo con EPUB como destino de exportación. Un productor que mantiene un libro de texto EPUB 3 puede producir su edición de audio DAISY 4.0 añadiendo pistas, no convirtiendo archivos. En segundo lugar, el MathML nativo: las ecuaciones viajan como MathML hasta el reproductor, que decide en tiempo de ejecución si representarlas visualmente, leerlas en voz alta o ambas cosas. En tercer lugar, los metadatos de procedencia de múltiples voces: un paquete DAISY 4.0 puede incluir tramos narrados por humanos, narrados con IA y renderizados por un motor matemático, con cada tramo atribuido en los metadatos a su método de producción, un requisito de transparencia que un conjunto emergente de normas de contratación pública nacional está comenzando a exigir. En cuarto lugar, las extensiones de navegación para los elementos estructurales que los libros de texto siempre han incluido pero que DAISY 3 gestionaba de manera torpe: ejercicios numerados, conjuntos de problemas, referencias cruzadas al glosario y referencias entre volúmenes.

El calendario de transición que la mayoría de los productores citan públicamente es conservador. El DAISY Consortium espera que la mayoría de los nuevos títulos educativos se publiquen como DAISY 4.0 para 2027–28, con el catálogo DAISY 2.02 heredado persistiendo indefinidamente en el lado del reproductor porque la base instalada de reproductores de hardware dedicados no puede actualizarse de forma remota.

Los principales productores y lo que producen

Learning Ally, la organización sin fines de lucro con sede en EE. UU. fundada en 1948 como Recording for the Blind, alberga el mayor catálogo de audiolibros de texto en inglés del mundo —aproximadamente 80.000 títulos a fecha de 2026— y sigue siendo en su mayor parte narrado por humanos, con una red de narradores voluntarios de aproximadamente 1.000 voces activas. Su documento de estrategia de 2025 se comprometía con un flujo de trabajo aumentado con IA (narración con IA en primer lugar, con control de calidad humano en los capítulos con alta densidad de símbolos) para los títulos de matemáticas y ciencias de nivel escolar, preservando al mismo tiempo la narración humana para el canon literario.

Bookshare, operado por Benetech, distribuye un catálogo con EPUB como formato principal —más de 1,3 millones de títulos en 2026, en categorías de lectores generales y educativos— que combina el texto subyacente con audio sintetizado renderizado por el reproductor del usuario en lugar de prebakado en producción. El modelo es el más económico a escala y el más alineado con la arquitectura de decisión en el reproductor de DAISY 4.0.

RNIB Talking Books en el Reino Unido atiende a aproximadamente 25.000 miembros activos y produce alrededor de 1.500 nuevos títulos al año, principalmente mediante narración humana, con un programa piloto de 2024–26 de narración con IA para obras de no ficción. Su catálogo es la referencia para el público de libros de texto del currículo del Reino Unido.

La Sección de la IFLA de Bibliotecas al Servicio de Personas con Discapacidades de Impresión (LPD) coordina la red mundial de productores y gestiona el catálogo transfronterizo del Consorcio de Libros Accesibles (ABC) bajo el Tratado de Marrakech, el mecanismo por el cual un libro producido en un país signatario puede prestarse a través de las fronteras a lectores autorizados en otro. El intercambio de catálogos del ABC en 2024 registró más de 850.000 transferencias transfronterizas de títulos, un orden de magnitud por encima de la cifra de hace cinco años, con el crecimiento concentrado en materiales educativos.

Qué significa esto para el estudiante en 2026

El efecto práctico de los cambios de 2024–26 es que el catálogo disponible para un estudiante ciego o con visión reducida en una jurisdicción importante de habla inglesa es aproximadamente un orden de magnitud mayor que a principios de la década, y el retraso entre una publicación impresa y una edición de audio accesible se está reduciendo de un año o más a semanas. El retraso para los libros de texto específicamente —históricamente la categoría más lenta debido a la complejidad matemática y estructural— está disminuyendo más despacio, pero está disminuyendo.

Lo que no ha cambiado es el suelo de calidad aceptable. Un libro de texto sigue teniendo que ser navegable, preciso y sincronizado con su texto fuente. El diseño de DAISY 4.0 y la economía del flujo de trabajo de narración con IA hacen que ese suelo sea más barato de alcanzar de lo que nunca lo ha sido. Los productores que tienen más probabilidades de hacerlo bien durante el resto de la década son los que han dejado de enmarcar la elección como humano o IA y han empezado a enmarcarla como qué frases necesitan qué método, y las oficinas de servicios a personas con discapacidad de universidades y escuelas que han dejado de aceptar «no podemos permitirnos producir esto» como respuesta definitiva.

Lea más de Disability World sobre el estado del acceso a la educación para sordos en todo el mundo, sobre las normativas nacionales de accesibilidad y sobre el registro de informes de accesibilidad de 2026.