Производство на аудиоучебници 2026: от DAISY до AI

От Disability WorldВреме за четене: 10 минути

Описание на изображението: Професионален студиен микрофон до отворен учебник със слушалки и аудиоконтроли — визуалният маркер за производството на аудиоучебници.

Учебникът не е подкаст. Той има нива на заглавия, номерирани упражнения, бележки под линия, индекси, формули, диаграми с описания и ученик, който трябва да намери страница 217 насред учебна сесия. Производството му като аудио означава да се произведе всичко това — не само текстовата проза. През 2026 г. два паралелни конвейера вършат тази работа: наследената верига DAISY, която носи на плещите си специализираните аудиоиздатели от четвърт век насам, и новата верига за AI озвучаване, която през последните три години смъкна себестойността на производство на час с приблизително един порядък. Те не са взаимозаменяеми. Там, където се срещат — какво оцелява от DAISY, какво се предава на синтезатора, какво остава при човек — е историята на аудиоучебника през 2026 г.

Този материал е производствено ръководство за хората, които поръчват, финансират и използват тези книги: координаторите по специално образование, университетските офиси за хора с увреждания, библиотекарите за алтернативни формати и издателските екипи в организациите, работещи на ръба на достъпното образование. То преминава през DAISY конвейера, който произвежда достъпен аудиоучебник, прехода към AI озвучаване, който преоформя икономиката нагоре по веригата, компромиса цена–качество, който двете страни сега договарят, проблемите с точността, които никой не е решил напълно (математика, собствени имена, превключване между езици), спецификацията DAISY 4.0, публикувана през 2025 г., и големите производители, които определят кои книги реално достигат до ученика.

Какво всъщност означава „DAISY“

DAISY — Digital Accessible Information System (Цифрова система за достъпна информация) — е едновременно спецификация, консорциум и семейство файлови формати. За пръв път е публикувана през 1996 г. от коалиция от библиотеки за говорещи книги, които се нуждаели от начин да доставят навигируемото, структурирано аудио, което касетата не можела да осигури. Двете спецификации, които и днес са опора на формата, са DAISY 2.02, издадена през 2001 г. и все още форматът, който мнозинството от наследените библиотеки за говорещи книги реално предлагат, и DAISY 3, формализирана като ANSI/NISO Z39.86 през 2002 г. и преразгледана през 2012 г. и отново през 2024 г. Актуализацията от 2024 г. — Z39.86-2024 — е версията, към която е насочен по-голямата част от настоящия производствен инструментариум, и преходната спецификация между наследения свят и DAISY 4.0.

Това, което DAISY прави, а един MP3 не може: носи структурна навигация (прескачане към глава 4, раздел 2, упражнение 3), SMIL синхронизация (аудиофайлът и текстовата пътека се поддържат в синхрон, така че позицията на възпроизвеждане в едното винаги съответства на другото) и метаданен слой, достатъчно богат, за да опише бележки под линия, странични каренца, номера на страници, клетки на таблици и елементи за прескачане като текущи колонтитули. Един DAISY плейър — Dolphin EasyReader, Voice Dream, референтният плейър AMIS, хардуерният Victor Reader Stratus — превръща тези структури в едно натискане на клавиш: ученикът може да се придвижва напред по изречение, по абзац, по заглавие от ниво 3 или по номер на страница в една и съща книга.

Наследеният производствен конвейер на DAISY

Производството на DAISY учебник по наследения конвейер преминава през шест отделни етапа и за учебник от 400 страници отнема приблизително от шест до дванадесет седмици общо време на заглавие при производител като Learning Ally или Royal National Institute of Blind People (RNIB).

Етап 1 — подготовка на източника. Издателят предоставя печатен PDF или, все по-често, EPUB. Производството почиства файла, отделя основния текст от колонтитулите, маркира йерархията на заглавията и експортира структуриран XHTML с реда на четене. Диаграмите и формулите се отбелязват за отделна обработка.
Етап 2 — озвучаване. Обучен човек диктор записва прозата в студийна сесия. За учебник дикторът следва ръководство за стил на издателя, което обхваща как се четат таблици, как се описват диаграми, как се произнася специфичната за предмета терминология и как се обработват непреведените пасажи на чужд език.
Етап 3 — редактиране и контрол на качеството. Втори проход премахва шума от дишане, преснема грешните произношения и подравнява записаното аудио спрямо изходния текст. Четец за контрол на качеството слуша спрямо печатния текст за точност.
Етап 4 — SMIL синхронизация. Производственият софтуер генерира SMIL (Synchronized Multimedia Integration Language) файл, който поставя времеви маркер на всяка граница на изречение в аудиото спрямо съответния участък в XHTML, създавайки моментното съответствие текст–аудио, на което се основава навигацията в DAISY.
Етап 5 — пакетиране. Аудиото, SMIL пътеката, XHTML текстът и навигационният манифест се обединяват в пакет DAISY 2.02 или DAISY 3, валидират се спрямо проверката за съответствие на формата и се качват в каталога за разпространение на производителя.
Етап 6 — разпространение. Пакетът се предоставя на оторизирани читатели чрез специфично за производителя приложение или чрез глобалния трансграничен обмен по Маракешкия договор към партньорски библиотеки в други юрисдикции.

Конвейерът произвежда авторитетна, навигируема книга с класно качество. Той е и скъп. Себестойността на завършен час аудио в наследената верига DAISY с озвучаване от човек е в диапазона от приблизително 45 до приблизително 75 щатски долара при големите производители — стойност, относително непроменена от средата на 2010-те години и обусловена почти изцяло от студийното време, хонорарите на дикторите и редакторския контрол на качеството.

Конвейерът за AI озвучаване

Промяната, която придвижи разговора за аудиоучебниците през 2024–26 г., е появата на невронни гласове за синтез на реч от текст, които за пръв път са достатъчно неразличими от човек диктор, та въпросът дали да се използват вече да не получава автоматично отговор „не“. Краткият списък на услугите, които задават производствените решения през 2026 г., е малък и добре дефиниран: ElevenLabs (чийто многоезичен модел v3, издаден през 2025 г., е референцията за озвучаване на учебници на английски в повечето актуални дискусии); Speechify (чието корпоративно предложение от 2024 г. е насочено специфично към образованието, с режим за дълги текстове и предварително изградени гласове в академичен стил); Amazon Polly Neural (най-евтиният при мащаб, със силна поддръжка на SSML); и OpenAI TTS HD (най-повествователно звучащият гласов синтез с общо предназначение в сравнителните тестове за слушане, проведени от изследователски групи по достъпност през 2025 г.).

Формата на конвейер за AI озвучаван аудиоучебник се различава от наследения по-малко в етапите си, отколкото в икономиката си. Подготовката на източника, маркирането на структурата и пакетирането остават всички. Етапи 2 и 3 — озвучаване и редактиране — се сливат в една автоматизирана стъпка: структурираният текст се подава към синтезатора със SSML насоки за ударение, произношение и продължителност на паузите, а синтезаторът връща аудио. След това намален човешки контрол на качеството преглежда за режимите на отказ (разгледани по-долу), които синтезаторът все още не може да разреши без помощ.

Промяната в цената е заглавието. Там, където наследената верига произвежда завършен час за приблизително 45 до приблизително 75 долара, AI озвучаването при производствен мащаб попада между приблизително 3 и приблизително 7 долара на час при големите доставчици през 2026 г. — намаление 10 пъти. Тази стойност премести въпроса от „можем ли да си позволим да произведем тази книга“ към „коя книга да не произвеждаме“. Национална библиотека за алтернативни формати, която преди подбираше 800 нови заглавия годишно при фиксиран бюджет, при същия бюджет може да подбере от 6000 до 8000 — стига качеството да се запази в категориите, където то наистина има значение.

Компромисът цена–качество

„Качеството“ в производството на аудиоучебници не е едно измерение. То е поне четири: разбираемост (може ли слушателят да схване какво казва гласът), естественост (предизвиква ли продължителното слушане умора), точност (думите на страницата ли са думите, които се четат) и структурна вярност (оцеляват ли таблиците, формулите и бележките под линия в аудиото). Съвременният невронен синтез на реч вече постига сравними с човешките резултати по разбираемост и в рамките на една точка от естествеността по стандартния 5-степенен тест за средна субективна оценка (Mean Opinion Score, MOS), използван от научната общност за синтез на реч. Там, където разликата остава видима, е по точност и структурна вярност.

Сравнителното проучване за слушане от 2025 г. на American Foundation for the Blind — най-обемното отделно публикувано доказателство по въпроса — набра слепи студенти, които да слушат съответстващи пасажи от учебници по химия, история и испанска литература, озвучени поред от човек и от гласовете ElevenLabs v3. Основният резултат: на ниво изречение AI озвучаването беше предпочетено или оценено като равностойно в 71% от опитите за предмети с преобладаваща проза (история, философия, английска литература). За предмети, наситени със символи (химия, математика, физика), AI беше предпочетено или оценено като равностойно само в 28% от опитите, като разликата се дължеше на предаването на математическата нотация и на начина, по който AI гласът обработва формули с долни индекси. Препоръката на проучването беше неизненадваща и сега се цитира оперативно: първо AI озвучаване, с човешки проход върху главите, наситени със символи.

Образователно интересният въпрос вече не е „човек или AI“ — той е „кои изречения се нуждаят от човек и кои могат да се синтезират при мащаб“. Отговорът все по-често е, че 80–90% от учебника могат да се синтезират, но останалите 10–20% — формули, собствени имена на непознати езици, цитати от първоизточници с архаичен правопис — е там, където учебникът престава да бъде подкаст.
Производственото правило 80/20, 2026 г.

Математика, собствени имена и проблемът с превключването между езици

Режимите на отказ по точност, които настоящият невронен синтез на реч не е решил, са достатъчно предвидими, та производителите сега ги планират на етапа на подготовка на източника, вместо да ги откриват при контрола на качеството.

Математика. Формулите, кодирани като MathML, имат каноничен изговорен вид — прочетете интеграла от a до b от x на квадрат dx — който нито един синтезатор с общо предназначение не генерира коректно. Производствените конвейери сега насочват MathML през специализиран механизъм за преобразуване на математика в реч (MathSpeak, разширението за достъпност на MathJax или механизма с отворен код SRE, поддържан от проекта Math-in-DAISY), преди да предадат получения английски текст на гласовия синтезатор. Спецификацията DAISY 4.0 формализира това насочване като препоръчван производствен модел.

Собствени имена. Личните имена, географските имена, имената на организации и специфичната за предмета терминология се произнасят грешно предвидимо. Одит от 2024 г. на DAISY Consortium върху 50 часа AI озвучавано образователно съдържание установи честоти на грешно произношение на имена от приблизително 14% в текстове по история (където имената се простират през множество езици) и приблизително 22% в учебници по чужди езици (където имената са самото съдържание). Смекчаването е лексикон за произношение на заглавие — обикновено от 50 до 300 записа за учебник от 400 страници — изграден по време на подготовката на източника и подаден към синтезатора като SSML лексикални насоки.

Превключване между езици. Учебник по история, цитиращ Цицерон на латински, учебник по литература, цитиращ Пушкин на руски, учебник по икономика, цитиращ Пикети на френски — това са изреченията, в които едноезичният глас за синтез се проваля най-видимо. ElevenLabs v3 и актуализацията на TTS на OpenAI от 2025 г. предлагат многоезични модели с един глас, които превключват езиците в средата на изказването, но качеството на превключването е неравномерно. Надеждният производствен модел през 2026 г. е чуждоезичният участък да се маркира изрично, да се насочи към специфичен за езика глас и аудиото да се събере отново на SMIL слоя.

DAISY 4.0: какво променя спецификацията от 2025 г.

DAISY 4.0, публикувана в проектен вид от DAISY Consortium в края на 2025 г., е първата ревизия на ниво формат от десетилетие. Отправната ѝ точка на проектиране е, че произведеният обект не бива да трябва да избира между аудиокнига и книга с текст и изображения — той трябва да бъде и двете едновременно, като плейърът избира какво да предостави на читателя.

Четири промени имат най-голямо значение за производството на учебници. Първо, привеждане в съответствие с EPUB 3: DAISY 4.0 е структурно пакет EPUB 3 с добавено аудио, а не паралелен формат с EPUB като цел за експорт. Производител, който поддържа учебник в EPUB 3, може да произведе аудиоиздание DAISY 4.0, като добави пътеки, а не като преобразува файлове. Второ, нативен MathML: формулите пътуват като MathML до плейъра, който решава по време на изпълнение дали да ги визуализира, да ги прочете на глас или и двете. Трето, метаданни за произхода на множество гласове: пакет DAISY 4.0 може да носи смесени участъци, озвучени от човек, озвучени от AI и обработени от математически механизъм, като всеки участък е приписан в метаданните на своя производствен метод — изискване за прозрачност, което нововъзникваща съвкупност от национални правила за обществени поръчки започва да изисква. Четвърто, разширения за навигация за структурните елементи, които учебниците винаги са носили, но DAISY 3 обработваше неудобно: номерирани упражнения, набори от задачи, препратки към речника и препратки между томове.

Графикът за преход, който повечето производители цитират публично, е консервативен. DAISY Consortium очаква мнозинството от новите образователни заглавия да излизат като DAISY 4.0 до 2027–28 г., като наследеният каталог DAISY 2.02 ще се запази безсрочно от страна на плейърите, тъй като инсталираната база от специализирани хардуерни плейъри не може да бъде надстроена дистанционно.

Големите производители и какво произвеждат

Learning Ally, базираната в САЩ организация с нестопанска цел, основана през 1948 г. като Recording for the Blind, държи най-големия каталог от аудиоучебници на английски в света — приблизително 80 000 заглавия към 2026 г. — и остава съществено озвучаван от хора, с мрежа от доброволци диктори от приблизително 1000 активни гласа. Стратегическият ѝ документ от 2025 г. се ангажира с конвейер, подсилен с AI (озвучаване с приоритет на AI и човешки контрол на качеството върху главите, наситени със символи) за заглавия по математика и природни науки на училищно ниво, като запазва човешкото озвучаване за литературния канон.

Bookshare, управлявана от Benetech, предлага каталог с приоритет на EPUB — над 1,3 милиона заглавия през 2026 г., в категориите за широка публика и образование — който съчетава основния текст със синтезирано аудио, генерирано от плейъра на потребителя, а не предварително изготвено при производството. Моделът е най-евтиният при мащаб и най-съответстващ на архитектурата „плейърът решава“ на DAISY 4.0.

RNIB Talking Books в Обединеното кралство обслужва приблизително 25 000 активни членове и произвежда около 1500 нови заглавия годишно, предимно чрез човешко озвучаване, с пилотна програма за 2024–26 г. за AI озвучаване на нехудожествена литература. Каталогът ѝ е референция за публиката на учебниците по британската учебна програма.

Секцията на IFLA за библиотеки, обслужващи лица с печатни увреждания (LPD) координира глобалната мрежа от производители и управлява трансграничния каталог на Accessible Books Consortium (ABC) по Маракешкия договор — механизмът, чрез който книга, произведена в една държава по договора, може да бъде заета през граница на оторизирани читатели в друга. Обменът на каталога на ABC от 2024 г. отчете над 850 000 трансгранични прехвърляния на заглавия, с порядък повече от стойността отпреди пет години, като ръстът е концентриран в образователните материали.

Какво означава това за ученика през 2026 г.

Практическият ефект от промените през 2024–26 г. е, че каталогът, достъпен за сляп ученик или ученик със слабо зрение в голяма англоезична юрисдикция, е приблизително с порядък по-голям, отколкото беше в началото на десетилетието, а закъснението между печатна публикация и достъпно аудиоиздание се свива от година или повече до седмици. Закъснението специфично за учебниците — исторически най-бавната категория поради математическата и структурната сложност — се затваря по-бавно, но се затваря.

Това, което не се е променило, е прагът на приемливото качество. Учебникът все още трябва да бъде навигируем, точен и синхронизиран с изходния си текст. Дизайнът на DAISY 4.0 и икономиката на конвейера за AI озвучаване правят този праг по-евтин за достигане, отколкото е бил някога. Производителите, които най-вероятно ще се справят добре през остатъка от десетилетието, са онези, които са престанали да формулират избора като човек или AI и са започнали да го формулират като кои изречения се нуждаят от кой метод — както и офисите за услуги за хора с увреждания в университетите и училищата, които са престанали да приемат „не можем да си позволим да го произведем“ като окончателен отговор.

Прочетете още от Disability World за състоянието на достъпа до образование за глухи по света, за националната нормативна уредба за достъпност и за по-широкия отчетен запис за достъпността през 2026 г.