Bildbeschreibung: Ein professionelles Studiomikrofon neben einem aufgeschlagenen Lehrwerk mit Kopfhörern und Audioreglern — das visuelle Kennzeichen für die Produktion von Hörtextbüchern.
Ein Lehrbuch ist kein Podcast. Es hat Überschriftenebenen, nummerierte Aufgaben, Fußnoten, Indizes, Gleichungen, beschriftete Diagramme und Studierende, die mitten in einer Lerneinheit Seite 217 aufschlagen müssen. Es als Audio zu produzieren bedeutet, all das zu produzieren — nicht nur den Fließtext. Im Jahr 2026 leisten das zwei parallele Pipelines: die klassische DAISY-Kette, die spezialisierte Audioverlagshäuser seit einem Vierteljahrhundert trägt, und eine neue KI-Vertoning-Kette, die in den vergangenen drei Jahren die Produktionskosten pro Stunde um rund eine Größenordnung gesenkt hat. Sie sind nicht austauschbar. Wo sie sich treffen — was von DAISY erhalten bleibt, was dem Synthesizer übergeben wird, was beim Menschen verbleibt — ist die Geschichte des Hörtextbuchs 2026.
Dieser Artikel ist ein Produktionsleitfaden für diejenigen, die diese Bücher in Auftrag geben, finanzieren und nutzen: Fachkräfte in der Sonderpädagogik, Hochschulbehindertenbeauftragte, Bibliothekarinnen und Bibliothekare für alternative Formate sowie die Verlagsteams bei Organisationen, die an den Rändern barrierefreier Bildung tätig sind. Er geht durch die DAISY-Pipeline, die ein barrierefreies Hörtextbuch produziert, den KI-Vertoning-Wandel, der die vorgelagerten Wirtschaftlichkeiten neu gestaltet, den Kosten-Qualitäts-Zielkonflikt, den beide Seiten jetzt aushandeln, die Genauigkeitsprobleme, die noch niemand vollständig gelöst hat (Mathematik, Eigennamen, Sprach-Code-Switching), die 2025 veröffentlichte DAISY-4.0-Spezifikation sowie die wichtigsten Produzenten, die bestimmen, welche Bücher tatsächlich zu den Studierenden gelangen.
Was „DAISY“ tatsächlich bedeutet
DAISY — das Digital Accessible Information System — ist eine Spezifikation, ein Konsortium und eine Dateiformat-Familie. Es wurde 1996 von einem Zusammenschluss von Hörbibliotheken erstmals veröffentlicht, die einen Weg benötigten, navigierbare, strukturierte Audioinhalte zu liefern, die eine Kassette nicht bieten konnte. Die zwei Spezifikationen, die das Format noch immer verankern, sind DAISY 2.02, veröffentlicht 2001 und immer noch das Format, das die Mehrheit der klassischen Hörbüchereien tatsächlich ausliefert, und DAISY 3, 2002 als ANSI/NISO Z39.86 formalisiert und 2012 sowie erneut 2024 überarbeitet. Die Aktualisierung von 2024 — Z39.86-2024 — ist die Version, auf die die meisten aktuellen Produktionswerkzeuge ausgerichtet sind, und die Brückenspezifikation zwischen der klassischen Welt und DAISY 4.0.
Was DAISY bietet, das eine MP3-Datei nicht kann: Strukturnavigation (springe zu Kapitel 4, Abschnitt 2, Aufgabe 3), SMIL-Synchronisation (Audiodatei und Texttrack werden synchron gehalten, sodass die Wiedergabeposition in einem immer auf das entsprechende Gegenstück im anderen abgebildet wird), sowie eine Metadatenschicht, die reich genug ist, um Fußnoten, Randleisten, Seitenzahlen, Tabellenzellen und überspringbare Elemente wie laufende Kolumnentitel zu beschreiben. Ein DAISY-Player — Dolphin EasyReader, Voice Dream, der AMIS-Referenz-Player, das Hardware-Gerät Victor Reader Stratus — verwandelt diese Strukturen in einen Tastendruck: Studierende können satzweise, absatzweise, nach Überschriftenebene 3 oder nach Seitenzahl durch dasselbe Buch navigieren.
Die klassische DAISY-Produktionspipeline
Die Produktion eines DAISY-Lehrwerks in der klassischen Pipeline umfasst sechs Einzelschritte und dauert bei einem 400-seitigen Lehrwerk bei einem Produzenten wie Learning Ally oder dem Royal National Institute of Blind People (RNIB) je Titel rund sechs bis zwölf Wochen.
- Stufe 1 — Quellaufbereitung. Der Verlag liefert ein Print-PDF oder zunehmend ein EPUB. Die Produktion bereinigt die Datei, trennt den Haupttext von Kolumnentiteln und Fußzeilen, kennzeichnet die Überschriftenhierarchie und exportiert eine strukturierte XHTML-Lesereihenfolge. Diagramme und Gleichungen werden für separate Bearbeitung markiert.
- Stufe 2 — Vertonung. Eine ausgebildete menschliche Sprecherin bzw. ein Sprecher nimmt den Fließtext in einer Studiositzung auf. Bei einem Lehrwerk folgen die Vortragenden einem Verlagsstil-Leitfaden, der regelt, wie Tabellen gelesen, wie Diagramme beschrieben, wie fachspezifische Terminologie ausgesprochen und wie nicht übersetzte fremdsprachige Passagen behandelt werden.
- Stufe 3 — Bearbeitung und Qualitätssicherung. Ein zweiter Durchgang entfernt Atemgeräusche, korrigiert falsch ausgesprochene Wörter und gleicht das aufgenommene Audio mit dem Quelltext ab. Eine QA-Leserin bzw. ein QA-Leser hört auf Korrektheit gegen den Druck ab.
- Stufe 4 — SMIL-Synchronisation. Eine Produktionssoftware erzeugt eine SMIL-Datei (Synchronized Multimedia Integration Language), die jede Satzgrenze im Audio auf das entsprechende Span im XHTML zeitstempelt und so die momentgenaue Text-Audio-Zuordnung erzeugt, auf die DAISY-Navigation angewiesen ist.
- Stufe 5 — Paketierung. Das Audio, der SMIL-Track, der XHTML-Text und ein Navigationsmanifest werden in ein DAISY-2.02- oder DAISY-3-Paket gebündelt, gegen den Konformitätsprüfer des Formats validiert und in den Vertriebskatalog des Produzenten hochgeladen.
- Stufe 6 — Vertrieb. Das Paket wird autorisierten Lesenden über eine produzentenspezifische App oder durch den globalen grenzüberschreitenden Marrakesh-Vertrags-Austausch an Partnerbibliotheken in anderen Rechtsordnungen bereitgestellt.
Die Pipeline produziert ein verlässliches, navigierbares, unterrichtstaugliches Buch. Sie ist auch kostspielig. Die Kosten pro fertigem Audiostunde liegen in der klassischen menschlich vertonten DAISY-Kette im Bereich von ca. 45 bis ca. 75 US-Dollar bei den großen Produzenten — ein Wert, der sich seit Mitte der 2010er-Jahre kaum verändert hat und fast ausschließlich durch Studiozeit, Honorare für Sprechende und redaktionelle Qualitätssicherung bestimmt wird.
Die KI-Vertoning-Pipeline
Die Veränderung, die die Diskussion über Hörtextbücher 2024–26 vorangetrieben hat, ist das Aufkommen neuronaler Text-to-Speech-Stimmen, die erstmals so kaum von einer menschlichen Sprecherstimme zu unterscheiden sind, dass die Frage, ob man sie einsetzen soll, nicht mehr automatisch mit „Nein“ beantwortet wird. Die kurze Liste der Dienste, die Produktionsentscheidungen 2026 prägen, ist klein und klar: ElevenLabs (dessen mehrsprachiges v3-Modell, 2025 veröffentlicht, in den meisten aktuellen Diskussionen die Referenz für englische Lehrbuchwertung ist); Speechify (dessen Enterprise-Angebot 2024 explizit auf die Bildung abzielt, mit einem Langformodus und vorgefertigten akademischen Stimmen); Amazon Polly Neural (das günstigste im Maßstab, mit starker SSML-Unterstützung); und OpenAI TTS HD (die erzählend klingendste Allzweckstimme in den vergleichenden Hörtests von Barrierefreiheitsforschungsgruppen 2025).
Die Form einer KI-vertonten Hörtextbuch-Pipeline unterscheidet sich von der klassischen weniger in ihren Schritten als in ihrer Wirtschaftlichkeit. Quellaufbereitung, Strukturmarkierung und Paketierung bleiben erhalten. Die Stufen 2 und 3 — Vertonung und Bearbeitung — kollabieren zu einem einzigen automatisierten Schritt: Der strukturierte Text wird mit SSML-Hinweisen für Betonung, Aussprache und Pausenlänge dem Synthesizer übergeben, der Audio zurückgibt. Ein reduzierter menschlicher QA-Durchgang prüft anschließend auf die Fehlermodi (unten erläutert), die der Synthesizer allein noch nicht lösen kann.
Die Kostenveränderung ist die Schlagzeile. Wo die klassische Kette eine fertige Stunde für ca. 45 bis ca. 75 Dollar produziert, landet KI-Vertonung im Produktionsmaßstab bei den großen Anbietern 2026 zwischen ca. 3 und ca. 7 Dollar pro Stunde — eine 10-fache Reduktion. Diese Zahl hat die Frage von „Können wir uns die Produktion dieses Buches leisten?“ zu „Welches Buch sollten wir nicht produzieren?“ verschoben. Eine nationale Alternative-Format-Bibliothek, die zuvor bei einem festen Budget 800 neue Titel pro Jahr auswählte, kann mit demselben Budget 6.000 bis 8.000 auswählen — vorausgesetzt, die Qualität hält bei den Kategorien, bei denen es tatsächlich darauf ankommt.
Der Kosten-Qualitäts-Zielkonflikt
„Qualität“ in der Hörtextbuchproduktion ist keine eindimensionale Größe. Es sind mindestens vier: Verständlichkeit (kann eine Zuhörerin bzw. ein Zuhörer verstehen, was die Stimme sagt), Natürlichkeit (verursacht längeres Zuhören Ermüdung), Genauigkeit (sind die Wörter auf der Seite die Wörter, die vorgelesen werden) und Strukturtreue (überleben Tabellen, Gleichungen und Fußnoten ins Audio). Moderne neuronale TTS erreicht jetzt menschenvergleichbare Werte bei Verständlichkeit und liegt innerhalb eines Punktes bei Natürlichkeit auf der standardisierten 5-Punkte-MOS-Skala (Mean Opinion Score), die von der Sprachsynthese-Forschungsgemeinschaft verwendet wird. Wo die Lücke noch sichtbar bleibt, ist bei Genauigkeit und Strukturtreue.
Die vergleichende Hörstudie der American Foundation for the Blind von 2025 — der bislang größte veröffentlichte Beleg zu dieser Frage — rekrutierte blinde Universitätsstudierende, um aufeinander abgestimmte Passagen aus Chemie-, Geschichte- und Spanischliteratur-Lehrwerken zu hören, abwechselnd von menschlichen Sprechenden und von ElevenLabs-v3-Stimmen vorgetragen. Das Hauptergebnis: Auf Satzebene wurde die KI-Vertonung in 71 % der Versuche bei textdominierten Fächern (Geschichte, Philosophie, englische Literatur) bevorzugt oder als gleichwertig bewertet. Bei symbolreichen Fächern (Chemie, Mathematik, Physik) wurde die KI in nur 28 % der Versuche bevorzugt oder als gleichwertig bewertet, wobei die Lücke durch das Rendering mathematischer Notationen und den Umgang der KI-Stimme mit tiefgestellten Formeln getrieben wurde. Die Empfehlung der Studie war wenig überraschend und wird operativ zitiert: KI-Vertonung zuerst, mit einem menschlichen Durchgang bei den symbolreichen Kapiteln.
Die pädagogisch interessante Frage lautet nicht mehr „Mensch oder KI“ — sondern „Welche Sätze brauchen einen Menschen, und welche können im Maßstab synthetisiert werden?“ Die Antwort lautet zunehmend, dass 80–90 % eines Lehrwerks synthetisiert werden können, aber die verbleibenden 10–20 % — Gleichungen, Eigennamen in unbekannten Sprachen, Primärquellenzitate in archaischer Schreibweise — sind dort, wo ein Lehrwerk aufhört, ein Podcast zu sein.
Die 80/20-Produktionsregel, 2026
Mathematik, Eigennamen und das Code-Switching-Problem
Die Genauigkeits-Fehlermodi, die aktuelle neuronale TTS nicht gelöst hat, sind vorhersehbar genug, dass Produzenten jetzt bereits in der Quellaufbereitungsphase für sie planen, anstatt sie erst in der Qualitätssicherung zu entdecken.
Mathematik. Als MathML kodierte Gleichungen haben eine kanonische gesprochene Form — lies das Integral von a bis b von x-Quadrat dx —, die kein universeller TTS-Synthesizer korrekt erzeugt. Produktionspipelines leiten MathML jetzt durch eine dedizierte Mathematik-zu-Sprache-Engine (MathSpeak, die MathJax-Barrierefreiheitserweiterung oder die Open-Source-SRE-Engine, die vom Math-in-DAISY-Projekt gepflegt wird), bevor der resultierende englische Text an die Sprecher-Stimmen-Engine übergeben wird. Die DAISY-4.0-Spezifikation formalisiert diese Weiterleitung als empfohlenes Produktionsmuster.
Eigennamen. Personennamen, Ortsnamen, Organisationsnamen und fachspezifische Terminologie werden vorhersehbar falsch ausgesprochen. Ein 2024 durchgeführtes Audit des DAISY-Konsortiums von 50 Stunden KI-vertontem Bildungsinhalt ergab Namensfehlerquoten von ca. 14 % in Geschichtstexten (wo die Namen aus mehreren Sprachen stammen) und ca. 22 % in Fremdsprachenlehrbüchern (wo die Namen der Inhalt sind). Die Abhilfemaßnahme ist ein titelbezogenes Aussprache-Lexikon — typischerweise 50 bis 300 Einträge für ein 400-seitiges Lehrwerk —, das während der Quellaufbereitung erstellt und dem Synthesizer als SSML-Lexikonhinweise bereitgestellt wird.
Code-Switching-Sprachen. Ein Geschichtslehrwerk, das Cicero auf Latein zitiert, ein Literaturlehrwerk, das Puschkin auf Russisch zitiert, ein Wirtschaftslehrwerk, das Piketty auf Französisch zitiert — das sind die Sätze, bei denen eine einsprachige TTS-Stimme am sichtbarsten versagt. ElevenLabs v3 und OpenAIs TTS-Update von 2025 liefern beide mehrsprachige Einzelstimmenmodelle, die Sprachen mitten in der Äußerung wechseln, aber die Qualität des Wechsels ist ungleichmäßig. Das zuverlässige Produktionsmuster 2026 besteht darin, den fremdsprachigen Span explizit zu markieren, ihn an eine sprachspezifische Stimme weiterzuleiten und das Audio auf SMIL-Ebene wieder zusammenzufügen.
DAISY 4.0: Was die Spezifikation von 2025 ändert
DAISY 4.0, vom DAISY-Konsortium Ende 2025 als Entwurf veröffentlicht, ist die erste formatbezogene Überarbeitung seit einem Jahrzehnt. Ihr Design-Ausgangspunkt ist, dass das produzierte Objekt nicht zwischen einem Hörbuch und einem Text-und-Bild-Buch wählen muss — es sollte beides gleichzeitig sein, wobei der Player entscheidet, was der lesenden Person präsentiert wird.
Vier Änderungen sind für die Lehrbuchproduktion am bedeutsamsten. Erstens, EPUB-3-Ausrichtung: DAISY 4.0 ist strukturell ein EPUB-3-Paket mit hinzugefügtem Audio, kein paralleles Format mit EPUB als Exportziel. Ein Produzent, der ein EPUB-3-Lehrwerk pflegt, kann seine DAISY-4.0-Audioausgabe durch Hinzufügen von Tracks, nicht durch Konvertieren von Dateien, erstellen. Zweitens, natives MathML: Gleichungen wandern als MathML bis zum Player, der zur Laufzeit entscheidet, ob er visuell renderst, vorliest oder beides tut. Drittens, Multi-Voice-Provenienz-Metadaten: Ein DAISY-4.0-Paket kann gemischte menschlich vertonte, KI-vertonte und mathematikmaschinengerenderte Spans enthalten, wobei jeder Span in den Metadaten seiner Produktionsmethode zugeordnet ist — eine Transparenzanforderung, die ein aufkommender Satz nationaler Beschaffungsvorschriften zu verlangen beginnt. Viertens, Navigations-Erweiterungen für die strukturellen Elemente, die Lehrbücher schon immer enthielten, die DAISY 3 aber umständlich behandelt hat: nummerierte Aufgaben, Aufgabenblöcke, Glossar-Rückverweise und band-übergreifende Querverweise.
Der Übergangszeitplan, den die meisten Produzenten öffentlich nennen, ist konservativ. Das DAISY-Konsortium erwartet, dass die Mehrheit neuer Bildungstitel bis 2027–28 als DAISY 4.0 ausgeliefert wird, wobei der klassische DAISY-2.02-Katalog auf der Player-Seite auf unbestimmte Zeit bestehen bleibt, weil der vorhandene Bestand an dedizierten Hardware-Playern nicht aus der Ferne aktualisiert werden kann.
Die wichtigsten Produzenten und was sie produzieren
Learning Ally, die 1948 als Recording for the Blind gegründete US-amerikanische gemeinnützige Organisation, hält den größten englischsprachigen Hörtextbuch-Katalog der Welt — ca. 80.000 Titel ab 2026 — und bleibt im Wesentlichen menschlich vertont, mit einem Netzwerk ehrenamtlicher Sprechender von rund 1.000 aktiven Stimmen. Ihr Strategiepapier 2025 verpflichtete sich zu einer KI-unterstützten Pipeline (KI-zuerst-Vertonung mit menschlicher Qualitätssicherung bei symbolreichen Kapiteln) für Mathematik- und Naturwissenschaftstitel auf Schülerebene, während die menschliche Vertonung für den literarischen Kanon erhalten bleibt.
Bookshare, betrieben von Benetech, liefert einen EPUB-zuerst-Katalog — über 1,3 Millionen Titel im Jahr 2026, in allgemeinen Leser- und Bildungskategorien —, der den zugrundeliegenden Text mit synthetisiertem Audio koppelt, das vom Player der Nutzerin bzw. des Nutzers gerendert wird, statt fertig in der Produktion zu sein. Das Modell ist das günstigste im Maßstab und das am stärksten auf DAISY 4.0s Player-entscheidet-Architektur ausgerichtete.
RNIB Talking Books im Vereinigten Königreich bedient ca. 25.000 aktive Mitglieder und produziert jährlich rund 1.500 neue Titel, hauptsächlich via menschliche Vertonung mit einem Pilotprogramm 2024–26 zur KI-Vertonung von Sachbüchern. Der Katalog ist die Referenz für das britische Lehrwerks-Lehrplanpublikum.
Die IFLA Libraries Serving Persons with Print Disabilities (LPD) Section koordiniert das globale Produzentennetzwerk und betreibt den Accessible Books Consortium (ABC) grenzüberschreitenden Katalog nach dem Marrakesch-Vertrag — den Mechanismus, durch den ein in einem Unterzeichnerland produziertes Buch grenzüberschreitend an autorisierte Lesende in einem anderen Land verliehen werden kann. Der ABC-Katalogaustausch 2024 meldete über 850.000 grenzüberschreitende Titelübertragungen — eine Größenordnung über dem Wert von fünf Jahren zuvor, wobei das Wachstum auf Bildungsmaterialien konzentriert ist.
Was das für Studierende im Jahr 2026 bedeutet
Der praktische Effekt der Änderungen 2024–26 ist, dass der Katalog, der blinden oder sehbeeinträchtigten Studierenden in einer großen englischsprachigen Rechtsordnung zur Verfügung steht, ungefähr eine Größenordnung größer ist als zu Beginn des Jahrzehnts, und die Verzögerung zwischen einer Printveröffentlichung und einer barrierefreien Audioausgabe von einem Jahr oder mehr auf Wochen zusammenschmilzt. Die Verzögerung bei Lehrwerken im Besonderen — historisch die langsamste Kategorie wegen mathematischer und struktureller Komplexität — schließt sich langsamer, aber sie schließt sich.
Was sich nicht verändert hat, ist die Qualitätsuntergrenze. Ein Lehrwerk muss nach wie vor navigierbar, genau und mit seinem Quelltext synchronisiert sein. Das Design von DAISY 4.0 und die Wirtschaftlichkeit der KI-Vertoning-Pipeline machen diese Untergrenze günstiger zu überwinden als je zuvor. Die Produzenten, die im Rest des Jahrzehnts am besten abschneiden werden, sind jene, die aufgehört haben, die Wahl als Mensch oder KI zu rahmen, und begonnen haben zu fragen, welche Sätze welche Methode benötigen — und die Hochschul- und Schulbehinderteneinrichtungen, die aufgehört haben, „Wir können uns die Produktion nicht leisten“ als abschließende Antwort zu akzeptieren.
Mehr von Disability World über den Stand des weltweiten Gehörlosen-Bildungszugangs, über nationale Barrierefreiheitsvorschriften und über den breiteren Barrierefreiheitsbericht 2026.