Produkcja podręczników audio 2026: od DAISY do AI

Autor: Disability WorldCzas czytania: 10 minut

Opis ilustracji: Profesjonalny mikrofon studyjny obok otwartego podręcznika z słuchawkami i elementami sterowania dźwiękiem — wizualny znacznik produkcji podręczników audio.

Podręcznik to nie podcast. Ma poziomy nagłówków, numerowane ćwiczenia, przypisy, indeksy, równania, opisy diagramów i studenta, który musi znaleźć stronę 217 w trakcie sesji powtórkowej. Jego produkcja w formie audio oznacza uchwycenie tego wszystkiego — nie tylko tekstu głównego. W 2026 r. tę pracę wykonują dwa równoległe potoki: klasyczny łańcuch DAISY, który przez ćwierć wieku obsługiwał wyspecjalizowanych wydawców audio, oraz nowy łańcuch narracji AI, który w ciągu ostatnich trzech lat obniżył koszt produkcji za godzinę o ok. rząd wielkości. Nie są wymienne. To, co przetrwało z DAISY, co trafia do syntezatora, a co pozostaje przy człowieku — to właśnie jest historia podręcznika audio roku 2026.

Niniejszy artykuł jest przewodnikiem produkcyjnym dla osób zlecających, finansujących i korzystających z tych książek: koordynatorów kształcenia specjalnego, biur ds. niepełnosprawności uczelni, bibliotekarzy formatów alternatywnych i zespołów wydawniczych pracujących w obszarze dostępnej edukacji. Omawia potok DAISY produkujący dostępny podręcznik audio, zmianę ekonomiczną wywołaną przez narrację AI, kompromis kosztowo-jakościowy, z którym mierzą się obie strony, problemy z dokładnością, których nikt w pełni nie rozwiązał (matematyka, nazwy własne, przełączanie języków), specyfikację DAISY 4.0 opublikowaną w 2025 r. oraz głównych producentów kształtujących to, które książki rzeczywiście docierają do studenta.

Czym naprawdę jest „DAISY“

DAISY — Digital Accessible Information System — to specyfikacja, konsorcjum i rodzina formatów plików. Po raz pierwszy opublikowano go w 1996 r. przez koalicję bibliotek książek mówionych, które potrzebowały sposobu dostarczania nawigowalnych, ustrukturyzowanych treści audio, których kaseta magnetofonowa nie mogła zapewnić. Dwie specyfikacje, które nadal stanowią fundament formatu, to DAISY 2.02, wydany w 2001 r. i nadal serwowany przez większość starszych bibliotek książek mówionych, oraz DAISY 3, sformalizowany jako ANSI/NISO Z39.86 w 2002 r. i znowelizowany w 2012 i 2024 r. Aktualizacja z 2024 r. — Z39.86-2024 — to wersja, na którą ukierunkowane jest większość aktualnych narzędzi produkcyjnych, i specyfikacja pomostowa między starszym światem a DAISY 4.0.

Co potrafi DAISY, czego nie może MP3: niesie nawigację strukturalną (przejdź do rozdziału 4, sekcji 2, ćwiczenia 3), synchronizację SMIL (plik audio i ścieżka tekstowa są zsynchronizowane, tak by pozycja odtwarzania w jednym zawsze odpowiadała pozycji w drugim) oraz warstwę metadanych na tyle bogatą, by opisywać przypisy, marginesy, numery stron, komórki tabeli i elementy skip-on/skip-off, takie jak nagłówki bieżące. Odtwarzacz DAISY — Dolphin EasyReader, Voice Dream, referencyjny odtwarzacz AMIS, sprzęt Victor Reader Stratus — zamienia te struktury w skrót klawiaturowy: student może przechodzić zdanie po zdaniu, akapit po akapicie, nagłówek poziomu 3 po nagłówku, albo stronę po stronie — w tej samej książce.

Klasyczny potok produkcji DAISY

Produkcja podręcznika DAISY w klasycznym potoku wymaga sześciu odrębnych etapów i — dla 400-stronicowego podręcznika — ok. sześciu do dwunastu tygodni czasu realizacji na tytuł u producenta takiego jak Learning Ally czy Royal National Institute of Blind People (RNIB).

Etap 1 — przygotowanie źródła. Wydawca dostarcza drukowany PDF lub, coraz częściej, plik EPUB. Produkcja oczyszcza plik, oddziela tekst główny od nagłówków bieżących i stopek, znacznikuje hierarchię nagłówków i eksportuje ustrukturyzowany porządek odczytu XHTML. Diagramy i równania są oznaczane do oddzielnej obróbki.
Etap 2 — narracja. Wyszkolony ludzki lektor nagrywa tekst główny w sesji studyjnej. W przypadku podręcznika lektor stosuje się do stylistycznego przewodnika wydawcy, który określa, jak czytać tabele, jak opisywać diagramy, jak wymawiać terminologię przedmiotową i jak traktować nieprzetłumaczone fragmenty obcojęzyczne.
Etap 3 — redakcja i kontrola jakości. Drugi przebieg usuwa szumy oddechowe, ponawia błędnie wymówione fragmenty i wyrównuje zarejestrowane audio względem tekstu źródłowego. Recenzent QA słucha treści w odniesieniu do oryginału drukowanego, weryfikując dokładność.
Etap 4 — synchronizacja SMIL. Oprogramowanie produkcyjne generuje plik SMIL (Synchronized Multimedia Integration Language), który znakuje czasowo każdą granicę zdania w audio względem odpowiadającego mu fragmentu XHTML, tworząc chwilę po chwili odwzorowanie tekst–audio, na którym opiera się nawigacja DAISY.
Etap 5 — pakowanie. Audio, ścieżka SMIL, tekst XHTML i manifest nawigacji są łączone w pakiet DAISY 2.02 lub DAISY 3, walidowane względem narzędzia sprawdzania zgodności formatu i przesyłane do katalogu dystrybucyjnego producenta.
Etap 6 — dystrybucja. Pakiet jest dostarczany uprawnionym czytelnikom za pośrednictwem dedykowanej aplikacji producenta lub przez globalną transgraniczną wymianę traktatową Marrakesz do bibliotek partnerskich w innych jurysdykcjach.

Potok produkuje autorytatywną, nawigowalną książkę klasy szkolnej. Jest też kosztowny. Koszt za gotową godzinę audio w klasycznym, narraowanym przez człowieka łańcuchu DAISY wynosi od ok. 45 do ok. 75 USD u głównych producentów — wartość relatywnie niezmieniona od połowy lat 2010. i wynikająca niemal wyłącznie z czasu studyjnego, honorariów lektorów i redakcji QA.

Potok narracji AI

Zmianą, która w latach 2024–26 zdominowała dyskusję o podręcznikach audio, jest pojawienie się neuronowych głosów TTS (text-to-speech), które po raz pierwszy są na tyle nieodróżnialne od ludzkiego lektora, że pytanie o ich zastosowanie nie jest już automatycznie odpowiadane słowem „nie“. Skrócona lista usług kształtujących decyzje produkcyjne w 2026 r. jest mała i dobrze zdefiniowana: ElevenLabs (którego wielojęzyczny model v3, wydany w 2025 r., jest punktem odniesienia dla angielskiej narracji podręcznikowej w większości aktualnych dyskusji); Speechify (którego oferta enterprise z 2024 r. jest skierowana konkretnie do edukacji, z trybem długich form i predefiniowanymi głosami w stylu akademickim); Amazon Polly Neural (najtańszy w skali, z silnym wsparciem SSML); oraz OpenAI TTS HD (najbardziej narracyjnie brzmiący ogólny głos w porównawczych testach odsłuchowych przeprowadzonych przez grupy badawcze ds. dostępności w 2025 r.).

Kształt potoku podręcznika audio narraowanego przez AI różni się od klasycznego mniej etapami niż ekonomiką. Przygotowanie źródła, znacznikowanie struktury i pakowanie pozostają bez zmian. Etapy 2 i 3 — narracja i redakcja — zwijają się w jeden zautomatyzowany krok: ustrukturyzowany tekst jest przekazywany do syntezatora ze wskazówkami SSML dotyczącymi nacisku, wymowy i długości pauz, a syntezator zwraca audio. Ograniczony ludzki przebieg QA sprawdza następnie tryby awarii (opisane poniżej), których syntezator nadal nie jest w stanie samodzielnie rozwiązać.

Zmiana kosztów jest głównym nagłówkiem. Tam gdzie klasyczny łańcuch produkuje gotową godzinę za ok. 45–75 USD, narracja AI w skali produkcyjnej kosztuje od ok. 3 do ok. 7 USD za godzinę u głównych dostawców w 2026 r. — 10-krotna redukcja. Ta wartość to właśnie to, co przesunęło pytanie z „czy możemy sobie pozwolić na wyprodukowanie tej książki“ na „którą książki nie powinniśmy produkować“. Krajowa biblioteka formatów alternatywnych, która wcześniej dobierała 800 nowych tytułów rocznie przy stałym budżecie, może na tym samym budżecie wybrać 6 000–8 000 — pod warunkiem że jakość utrzymuje się w kategoriach, w których naprawdę ma to znaczenie.

Kompromis kosztowo-jakościowy

„Jakość“ w produkcji podręczników audio nie jest jednym wymiarem. To co najmniej cztery: zrozumiałość (czy słuchacz może przetworzyć to, co mówi głos), naturalność (czy długotrwałe słuchanie powoduje zmęczenie), dokładność (czy słowa na stronie to słowa, które są czytane) oraz wierność strukturalna (czy tabele, równania i przypisy przetrwają do wersji audio). Nowoczesne neuronowe TTS osiąga teraz wyniki porównywalne z ludzkim w zakresie zrozumiałości i mieści się w jednym punkcie naturalności w standardowych 5-punktowych testach Mean Opinion Score (MOS), stosowanych przez społeczność badawczą syntezy mowy. Widoczna luka pozostaje w obszarze dokładności i wierności strukturalnej.

Porównawcze badanie odsłuchowe American Foundation for the Blind z 2025 r. — największy pojedynczy opublikowany dowód w tej kwestii — rekrutowało niewidomych studentów uczelni wyższych do słuchania pasujących fragmentów podręczników chemii, historii i literatury hiszpańskiej, nagranych naprzemiennie przez ludzkiego lektora i głosy ElevenLabs v3. Główny wynik: na poziomie zdań narracja AI była preferowana lub oceniana równoważnie w 71% prób dla przedmiotów zdominowanych przez prozę (historia, filozofia, literatura angielska). Dla przedmiotów bogatych w symbole (chemia, matematyka, fizyka) AI była preferowana lub oceniana równoważnie tylko w 28% prób, a luka wynikała z renderowania notacji matematycznej i obsługi indeksów dolnych przez głos AI. Zalecenie badania jest zaskakująco oczywiste i teraz operacyjnie cytowane: narracja AI jako pierwsza, z przebiegiem ludzkim dla rozdziałów bogatych w symbole.

Interesujące pytanie edukacyjne to już nie „człowiek czy AI“ — ale „które zdania wymagają człowieka, a które można syntetyzować w skali“. Odpowiedź coraz bardziej brzmi: 80–90% podręcznika można syntetyzować, ale pozostałe 10–20% — równania, nazwy własne w obcych językach, cytaty ze źródeł pierwotnych w archaicznej pisowni — to miejsce, w którym podręcznik przestaje być podcastem.
Reguła produkcji 80/20, 2026 r.

Matematyka, nazwy własne i problem przełączania języków

Tryby awarii dokładności, których aktualne neuronowe TTS nie rozwiązało, są na tyle przewidywalne, że producenci planują je teraz na etapie przygotowania źródła, zamiast odkrywać je podczas QA.

Matematyka. Równania zakodowane w MathML mają kanoniczną formę mówioną — odczytaj całkę od a do b z x do kwadratu dx — której żaden ogólny silnik TTS nie generuje poprawnie. Potoki produkcyjne kierują teraz MathML przez dedykowany silnik math-to-speech (MathSpeak, rozszerzenie dostępności MathJax lub open-source’owy silnik SRE utrzymywany przez projekt Math-in-DAISY), zanim przekażą wynikowy tekst angielski do syntezatora głosu. Specyfikacja DAISY 4.0 formalizuje to kierowanie jako zalecaną praktykę produkcyjną.

Nazwy własne. Imiona i nazwiska, nazwy miejsc, nazwy organizacji i terminologia przedmiotowa są błędnie wymawiane w przewidywalny sposób. Audit DAISY Consortium z 2024 r., obejmujący 50 godzin edukacyjnych treści narraowanych przez AI, wykazał wskaźniki błędnych wymowy nazw własnych wynoszące ok. 14% w tekstach historycznych (gdzie nazwy obejmują wiele języków) i ok. 22% w podręcznikach języków obcych (gdzie nazwy stanowią treść). Ograniczeniem jest leksykon wymowy dla danego tytułu — zazwyczaj 50–300 wpisów dla 400-stronicowego podręcznika — tworzony podczas przygotowania źródła i dostarczany do syntezatora jako wskazówki leksykonu SSML.

Przełączanie języków. Podręcznik historii cytujący Cycerona po łacinie, podręcznik literatury cytujący Puszkina po rosyjsku, podręcznik ekonomii cytujący Piketty’ego po francusku — to zdania, w których jednojęzyczny głos TTS zawodzi najbardziej wyraźnie. ElevenLabs v3 i aktualizacja TTS OpenAI z 2025 r. dostarczają oba wielojęzyczne modele jednego głosu, które przełączają język w środku wypowiedzi, ale jakość przełączenia jest nierówna. Niezawodną praktyką produkcyjną w 2026 r. jest jawne oznaczenie fragmentu obcojęzycznego, skierowanie go do głosu specyficznego dla danego języka i zszycie audio z powrotem na poziomie SMIL.

DAISY 4.0: co zmienia specyfikacja z 2025 r.

DAISY 4.0, opublikowany w wersji roboczej przez DAISY Consortium pod koniec 2025 r., to pierwsza rewizja formatu od dekady. Jej punktem wyjścia jest założenie, że produkowany obiekt nie powinien wybierać między książką audio a książką tekstowo-obrazkową — powinien być jednym i drugim jednocześnie, a odtwarzacz decyduje, co pokazać czytelnikowi.

Cztery zmiany mają największe znaczenie dla produkcji podręczników. Po pierwsze, wyrównanie z EPUB 3: DAISY 4.0 jest strukturalnie pakietem EPUB 3 z dodanym audio, a nie równoległym formatem z EPUB jako celem eksportu. Producent utrzymujący podręcznik EPUB 3 może wyprodukować wydanie audio DAISY 4.0, dodając ścieżki, a nie konwertując pliki. Po drugie, natywny MathML: równania podróżują w postaci MathML do odtwarzacza, który w czasie rzeczywistym decyduje, czy renderować wizualnie, czytać na głos, czy robić jedno i drugie. Po trzecie, metadane proweniencji wielu głosów: pakiet DAISY 4.0 może zawierać fragmenty narraowane przez człowieka, narraowane przez AI i renderowane przez silnik matematyczny, z każdym fragmentem przypisanym w metadanych do metody produkcji — wymóg przejrzystości, który zaczyna wymagać wyłaniający się zestaw krajowych przepisów zamówień publicznych. Po czwarte, rozszerzenia nawigacji dla elementów strukturalnych, które podręczniki zawsze miały, ale DAISY 3 obsługiwał niezgrabnie: numerowane ćwiczenia, zestawy zadań, odsyłacze do słowniczka i odniesienia między tomami.

Harmonogram przejścia, który większość producentów podaje publicznie, jest ostrożny. DAISY Consortium spodziewa się, że większość nowych tytułów edukacyjnych będzie dostarczana jako DAISY 4.0 do 2027–28, przy czym starszy katalog DAISY 2.02 będzie dostępny bezterminowo po stronie odtwarzaczy, ponieważ zainstalowana baza dedykowanych sprzętowych odtwarzaczy nie może być zdalnie aktualizowana.

Główni producenci i to, co produkują

Learning Ally, amerykańska organizacja non-profit założona w 1948 r. jako Recording for the Blind, posiada największy anglojęzyczny katalog podręczników audio na świecie — ok. 80 000 tytułów w 2026 r. — i pozostaje zasadniczo narraowana przez człowieka, z siecią wolontariuszy lektorów liczącą ok. 1 000 aktywnych głosów. Jej dokument strategiczny z 2025 r. zobowiązał się do potoku wspomaganego przez AI (narracja AI jako pierwsza, z ludzką QA dla rozdziałów bogatych w symbole) dla podręczników matematyki i nauk przyrodniczych na poziomie szkolnym, zachowując ludzką narrację dla klasyki literackiej.

Bookshare, prowadzony przez Benetech, dostarcza katalog oparty głównie na EPUB — ponad 1,3 mln tytułów w 2026 r., obejmujących kategorie ogólnoczytelnicze i edukacyjne — który łączy tekst podstawowy z audio syntetyzowanym przez odtwarzacz użytkownika, a nie prepieczonym na etapie produkcji. Model jest najtańszy w skali i najbardziej zgodny z architekturą DAISY 4.0 „odtwarzacz decyduje“.

RNIB Talking Books w Wielkiej Brytanii obsługuje ok. 25 000 aktywnych członków i produkuje ok. 1 500 nowych tytułów rocznie, głównie za pomocą narracji ludzkiej, z programem pilotażowym z lat 2024–26 dotyczącym narracji AI dla literatury faktu. Katalog jest punktem odniesienia dla odbiorców podręczników według programu nauczania w Wielkiej Brytanii.

Sekcja IFLA Libraries Serving Persons with Print Disabilities (LPD) koordynuje globalną sieć producentów i prowadzi katalog transgraniczny Accessible Books Consortium (ABC) na podstawie Traktatu Marrakesz — mechanizmu, dzięki któremu książka wyprodukowana w jednym państwie-sygnatariuszu może być wypożyczana przez granice uprawnionym czytelnikom w innym. Wymiana katalogów ABC z 2024 r. odnotowała ponad 850 000 transgranicznych transferów tytułów — o rząd wielkości więcej niż pięć lat wcześniej, z koncentracją wzrostu na materiałach edukacyjnych.

Co to oznacza dla studenta w 2026 r.

Praktycznym skutkiem zmian z lat 2024–26 jest to, że katalog dostępny dla niewidomego lub słabowidzącego studenta w głównej anglojęzycznej jurysdykcji jest ok. o rząd wielkości większy niż na początku dekady, a opóźnienie między publikacją drukowaną a dostępnym wydaniem audio maleje z roku lub dłużej do tygodni. Opóźnienie w przypadku podręczników konkretnie — historycznie najwolniejszej kategorii ze względu na złożoność matematyczną i strukturalną — zmniejsza się wolniej, ale zmniejsza się.

Czego nie zmieniło, to minimalny próg akceptowalnej jakości. Podręcznik nadal musi być nawigowalny, dokładny i zsynchronizowany ze swoim tekstem źródłowym. Projekt DAISY 4.0 i ekonomika potoku narracji AI sprawiają, że przekroczenie tego progu jest tańsze niż kiedykolwiek. Producenci, którzy mają największe szanse na sukces przez resztę dekady, to ci, którzy przestali traktować wybór jako człowiek kontra AI i zaczęli traktować go jako: które zdania wymagają której metody — oraz biura ds. niepełnosprawności w uczelniach wyższych i szkołach, które przestały akceptować „nie możemy sobie na to pozwolić“ jako ostateczną odpowiedź.

Więcej od Disability World na temat stanu dostępu do edukacji osób głuchych na świecie, krajowych przepisów dotyczących dostępności i szerszego dorobku raportowego z 2026 r. na temat dostępności.