Äänikirjaoppikirjojen tuotanto: DAISY:sta tekoälykerrontaan

Kirjoittanut Disability WorldLukuaika: 10 minuuttia

Kuvan kuvaus: Ammattimikrofoni avoimen oppikirjan vieressä kuulokkeiden ja äänisäätimien kanssa — äänikirjaoppikirjan tuotannon visuaalinen tunnus.

Oppikirja ei ole podcast. Siinä on otsikkotasoja, numeroituja tehtäviä, alaviitteitä, hakemistoja, kaavoja, kuvatekstillä varustettuja kaavioita sekä opiskelija, jonka täytyy löytää sivu 217 kesken kertausistunnon. Sen tuottaminen ääneksi tarkoittaa kaiken tämän tuottamista — ei pelkästään proosaa. Vuonna 2026 kaksi rinnakkaista tuotantoketjua tekee tämän työn: perinteinen DAISY-ketju, joka on palvellut erikoistuneita äänijulkaisijoita neljännesvuosisadan ajan, ja uusi tekoälykerronnan ketju, joka on viimeisen kolmen vuoden aikana laskenut tunnin tuotantokustannuksia noin kertaluokalla. Ne eivät ole korvattavissa toisillaan. Missä ne kohtaavat — mitä DAISY:stä jää henkiin, mitä annetaan syntetisoijalle, mikä jää ihmiselle — on vuoden 2026 äänikirjaoppikirjan tarina.

Tämä teos on tuotanto-opas ihmisille, jotka tilaavat, rahoittavat ja käyttävät näitä kirjoja: erityisopetuksen koordinaattoreille, yliopiston vammaispalveluille, vaihtoehtoisten muotojen kirjastonhoitajille sekä saavutettavan koulutuksen rajoja työskentelevien organisaatioiden julkaisutiimeille. Se käy läpi DAISY-tuotantoketjun, joka tuottaa saavutettavan äänikirjaoppikirjan, tekoälykerronnan muutoksen, joka muokkaa alkupään talouslogiikkaa, molempien osapuolten neuvotteleman kustannus-laatu-kompromissin, tarkkuusongelmat, joita kukaan ei ole täysin ratkaissut (matematiikka, erisnimien, koodinvaihtokielet), vuonna 2025 julkaistun DAISY 4.0 -spesifikaation ja suurimmat tuottajat, jotka muokkaavat, mitkä kirjat todella tavoittavat opiskelijan.

Mitä “DAISY” todella tarkoittaa

DAISY — Digital Accessible Information System — on spesifikaatio, konsortio ja tiedostomuotoperhe. Sen julkaisi ensimmäisenä vuonna 1996 puhuvien kirjojen kirjastojen liittouma, joka tarvitsi tavan toimittaa navigoitavaa, rakenteetettua ääntä, johon kasettinauha ei pystynyt. Kaksi spesifikaatiota, jotka edelleen ankkuroivat muodon, ovat DAISY 2.02, julkaistu vuonna 2001 ja edelleen muoto, jota suurin osa perinteisistä puhuvien kirjojen kirjastoista todella palvelee, ja DAISY 3, virallistettu ANSI/NISO Z39.86:na vuonna 2002 ja tarkistettu vuosina 2012 ja jälleen 2024. Vuoden 2024 päivitys — Z39.86-2024 — on versio, johon nykyinen tuotantotyökalut kohdistuvat, ja sillanrakentajaspesifikaatio perinteisen maailman ja DAISY 4.0:n välillä.

Mitä DAISY tekee, mihin MP3 ei pysty: se kantaa rakenteellisen navigoinnin (hyppää lukuun 4, osioon 2, tehtävään 3), SMIL-synkronoinnin (äänitiedosto ja tekstiraita pidetään tahdistettuna siten, että toistopaikka toisessa vastaa aina toista), ja metadatakerroksen, joka on rikas kuvaamaan alaviitteitä, sivupalkkeja, sivunumeroita, taulukkosoluja sekä ohitettavia ja palauttavia elementtejä kuten juoksevia otsikoita. DAISY-soitin — Dolphin EasyReader, Voice Dream, AMIS-viitesoitin, Victor Reader Stratus -laitteisto — muuttaa nämä rakenteet näppäinpainallukseksi: opiskelija voi siirtyä eteenpäin lauseelta, kappaleelta, otsikkotasolta 3 tai sivunumeron mukaan samassa kirjassa.

Perinteinen DAISY-tuotantoketju

DAISY-oppikirjan tuottaminen perinteisessä ketjussa vaatii kuusi erillistä vaihetta ja 400-sivuiselle oppikirjalle noin 6–12 viikkoa kuluneessa ajassa nimikettä kohti tuottajalla kuten Learning Ally tai Royal National Institute of Blind People (RNIB).

Vaihe 1 — lähteen valmistelu. Kustantaja toimittaa painetun PDF:n tai yhä useammin EPUB:n. Tuotanto puhdistaa tiedoston, erottaa päätekstin juoksevista otsikko- ja alatunnisteteksteistä, merkitsee otsikkohierarkian ja vie rakenteellisen XHTML-lukemisjärjestyksen. Kaaviot ja kaavat merkitään erilliskäsittelyä varten.
Vaihe 2 — kerronta. Koulutettu ihmiskertooja äänittää proosan studiossa. Oppikirjalle kertooja noudattaa kustantajan tyyliopasta, joka kattaa taulukoiden lukemisen, kaavioiden kuvailun, aihekohtaisten termien äännetavan ja koodinvaihtokatkelmien käsittelyn.
Vaihe 3 — editointi ja laadunvarmistus. Toinen läpikäynti poistaa hengitysäänimät, ottaa uusintaäänitykset väärällä äännetyllä sanoille ja tasaa tallennetun äänen lähdetekstiä vasten. QA-lukija kuuntelee painetun version tarkkuutta vasten.
Vaihe 4 — SMIL-synkronointi. Tuotantoohjelmisto luo SMIL-tiedoston (Synchronized Multimedia Integration Language), joka aikaleimaa jokaisen lauserajan ääniksi XHTML:n vastaavaa laajuutta vasten, tuottaen hetki hetkeltä teksti-äänikartoituksen, johon DAISY-navigointi perustuu.
Vaihe 5 — pakkaaminen. Ääni, SMIL-raita, XHTML-teksti ja navigointimanifestitiedosto niputetaan DAISY 2.02- tai DAISY 3 -paketiksi, validoidaan muodon vaatimustenmukaisuustarkistimen avulla ja ladataan tuottajan jakelukatalogiin.
Vaihe 6 — jakelu. Paketti toimitetaan valtuutetuille lukijoille tuottajakohtaisen sovelluksen kautta tai globaalin rajat ylittävän Marrakeshin sopimuksen vaihdon kautta kumppanikirjastoille muissa lainkäyttöalueissa.

Tuotantoketju tuottaa auktoritatiivisen, navigoitavan, luokkatason kirjan. Se on myös kallista. Perinteisen ihmiskerrotun DAISY-ketjun valmiin äänen tuntikustannus on noin 45–75 dollaria suurimmilla tuottajilla — luku, joka on pysynyt suhteellisen muuttumattomana 2010-luvun puolivälistä lähtien ja johtuu lähes kokonaan studioajasta, kertojapalkkioista ja toimituksellisesta laadunvarmistuksesta.

Tekoälykerronnan tuotantoketju

Muutos, joka on siirtänyt äänikirjaoppikirjakeskustelua vuosina 2024–26, on hermostollisten teksti-puheeksi-äänten tulo — ensimmäistä kertaa riittävän erottamattomia ihmiskertoajasta, että kysymys niiden käyttämisestä ei enää automaattisesti johda vastaukseen “ei”. Tuotantopäätöksiä ohjaavien palvelujen lyhyt lista vuonna 2026 on pieni ja hyvin määritelty: ElevenLabs (jonka monikielinen v3-malli, julkaistu 2025, on viite englanninkieliselle oppikirjakerrontalle useimmissa nykyisissä keskusteluissa); Speechify (jonka 2024 yritystuote kohdistuu erityisesti koulutukseen pitkänmuodon tilassa ja valmiiksi rakennetuilla akateemistyylisillä äänillä); Amazon Polly Neural (halvin skaalassa, vahvalla SSML-tuella); ja OpenAI TTS HD (kerronnallisimmalta kuulostava yleiskäyttöinen ääni saavutettavuustutkimusryhmien vuonna 2025 suorittamissa vertailevissa kuuntelutesteissä).

Tekoälykerrotun äänikirjaoppikirjan tuotantoketjun muoto eroaa perinteisestä vähemmän vaiheidensa kuin talouslogiikkansa puolesta. Lähteen valmistelu, rakennteen merkintä ja pakkaaminen säilyvät kaikki. Vaiheet 2 ja 3 — kerronta ja editointi — sulautuvat yhdeksi automatisoiduksi vaiheeksi: rakentellinen teksti syötetään syntetisoijalle SSML-vihjeineen korostuksesta, ääntämisestä ja taukopituudesta, ja syntetisoija palauttaa ääntä. Supistettu ihmislaadunvarmistusläpikäynti pyyhkii sitten niiden vikamuotojen yli (käsitelty alla), joita syntetisoija ei vielä pysty ratkaisemaan yksinään.

Kustannusmuutos on otsikko. Siinä missä perinteinen ketju tuottaa valmiin tunnin noin 45–75 dollarilla, tekoälykerronta tuotantolaajuudessa asettuu noin 3–7 dollarin välille tunnilta suurimmilla tarjoajilla vuonna 2026 — 10-kertainen lasku. Tämä luku on se, mikä on siirtänyt kysymyksen “voimmeko varaa tuottaa tämän kirjan” kysymykseksi “mikä kirja meidän ei pitäisi tuottaa”. Kansallinen vaihtoehtoisten muotojen kirjasto, joka aiemmin valitsi 800 uutta nimikettä vuodessa kiinteässä budjetissa, voi samalla budjetilla valita 6 000–8 000 — edellyttäen, että laatu säilyy luokissa, joissa sillä todella on merkitystä.

Kustannus-laatu-kompromissi

”Laatu” äänikirjaoppikirjan tuotannossa ei ole yksi ulottuvuus. Se on vähintään neljä: ymmärrettävyys (voiko kuuntelija tulkita mitä ääni sanoo), luonnollisuus (aiheuttaako jatkuva kuuntelu väsymystä), tarkkuus (ovatko sivulla olevat sanat ne sanat, joita luetaan) ja rakenteellinen uskollisuus (selviävätkö taulukot, kaavat ja alaviitteet ääneen). Nykyaikaiset hermoverkko-TTS-järjestelmät saavuttavat nyt ihmisvertaisia pisteitä ymmärrettävyydessä ja ovat yhden pisteen sisällä luonnollisuudessa standardilla 5-pisteisenä Mielipidepisteiden Keskiarvona (MOS), jota puhesynteesin tutkimusyhteisö käyttää. Missä ero pysyy näkyvissä, on tarkkuudessa ja rakenteellisessa uskollisuudessa.

American Foundation for the Blind’n vuoden 2025 vertaileva kuuntelututkimus — suurin yksittäinen julkaistu näyttö aiheesta — rekrytoi sokeita yliopisto-opiskelijoita kuuntelemaan kemian, historian ja espanjalaisen kirjallisuuden oppikirjojen vastaavia katkelmia, vuorotellen ihmisen ja ElevenLabs v3 -äänten kertomana. Päätulos: lausetasolla tekoälykerronta oli suosittu tai arvioitu vastaavaksi 71 %:ssa kokeista proosavoittoisissa aineissa (historia, filosofia, englanninkielinen kirjallisuus). Symbolitiheissä aineissa (kemia, matematiikka, fysiikka) tekoäly oli suosittu tai arvioitu vastaavaksi vain 28 %:ssa kokeista, ja ero johtui matemaattisten merkintöjen hahmontamisesta ja tekoälyn äänestä alaindeksien käsittelyssä. Tutkimuksen suositus oli yllätyksetön ja nykyisin operatiivisesti siteerattu: tekoälykerronta ensin, ihmisläpikäynti symbolitiheillä luvuilla.

Koulutuksellisesti kiinnostava kysymys ei enää ole “ihminen vai tekoäly” — vaan “mitkä lauseet tarvitsevat ihmisen, ja mitkä voidaan syntetisoida skaalassa”. Vastaus on yhä useammin, että 80–90 % oppikirjasta voidaan syntetisoida, mutta jäljelle jäävä 10–20 % — kaavat, erisnimien vieraista kielistä, arkaaisin oikeinkirjoituksin kirjoitetut primäärilähteiden lainaukset — on paikka, jossa oppikirja lakkaa olemasta podcast.
80/20 tuotantosääntö, 2026

Matematiikka, erisnimien ja koodinvaihto-ongelma

Nykyisten hermoverkko-TTS-järjestelmien ratkaisemattomat tarkkuusvikamuodot ovat riittävän ennakoitavia, että tuottajat suunnittelevat niille nyt lähteen valmisteluvaiheessa eikä löydä niitä laadunvarmistuksessa.

Matematiikka. MathML:nä koodatuilla kaavoilla on kanoninen puhuttu muoto — lue integraali a:sta b:hen x neliö dx — jota mikään yleiskäyttöinen TTS-moottori ei tuota oikein. Tuotantoketjut reitittävät nyt MathML:n omistetun matematiikka-puheeksi-moottorin läpi (MathSpeak, MathJax-saavutettavuuslaajennus tai Math-in-DAISY-projektin ylläpitämä avoimen lähdekoodin SRE-moottori) ennen kuin tuloksena saatava englanninkielinen teksti annetaan kertojaäänien syntetisoijalle. DAISY 4.0 -spesifikaatio virallistaa tämän reitittämisen suositeltuna tuotantomallina.

Erisnimien. Henkilönnimet, paikannimet, organisaationimet ja aihekohtaiset termit ääntyvät väärin ennakoitavasti. DAISY-konsortion vuoden 2024 auditointi 50 tunnista tekoälykerrottua koulutussisältöä havaitsi nimien väärän ääntämisen asteet noin 14 % historian teksteissä (joissa nimet kattavat useita kieliä) ja noin 22 % vieraan kielen oppikirjoissa (joissa nimet ovat sisältöä). Lieventäminen on nimikkeinen ääntämisleksikko — tyypillisesti 50–300 kohtaa 400-sivuiselle oppikirjalle — rakennettu lähteen valmistelun aikana ja toimitettu syntetisoijalle SSML-leksikkoiniviihjeinä.

Koodinvaihtokielet. Historianoppikirja, joka lainaa Ciceroa latinaksi, kirjallisuusoppikirja, joka lainaa Pushkinia venäjäksi, taloustieteen oppikirja, joka lainaa Pikettya ranskaksi — nämä ovat lauseet, joissa yksikielinen TTS-ääni epäonnistuu näkyvimmin. ElevenLabs v3 ja OpenAI:n vuoden 2025 TTS-päivitys molemmat toimittavat monikielisiä yhden äänen malleja, jotka vaihtavat kieltä lausunnon keskellä, mutta vaihdon laatu on epätasainen. Luotettava tuotantomalli vuonna 2026 on merkitä vieraskielinen jakso eksplisiittisesti, reitittää se kielikohtaiseen ääneen ja liittää ääni takaisin yhteen SMIL-kerroksessa.

DAISY 4.0: mitä vuoden 2025 spesifikaatio muuttaa

DAISY 4.0, jonka DAISY-konsortio julkaisi luonnoksena myöhään vuonna 2025, on ensimmäinen muotostason tarkistus vuosikymmeneen. Sen suunnittelulähtökohta on, että tuotetun objektin ei pitäisi joutua valitsemaan äänikirjan ja teksti-ja-kuvakirjan välillä — sen pitäisi olla molemmat samanaikaisesti, soittimen päättäessä mitä näyttää lukijalle.

Neljä muutosta on oppikirjatuotannon kannalta tärkeintä. Ensinnäkin, EPUB 3 -tasaus: DAISY 4.0 on rakenteellisesti EPUB 3 -paketti, johon on lisätty ääni, eikä rinnakkainen muoto EPUB:n vientikohteena. Tuottaja, joka ylläpitää EPUB 3 -oppikirjaa, voi tuottaa DAISY 4.0 -äänipainoksen lisäämällä raitoja eikä muuntamalla tiedostoja. Toiseksi, natiivi MathML: kaavat kulkevat MathML:nä soittimelle asti, joka päättää suoritusaikana, renderoiko visuaalisesti, lukeeko ääneen vai molemmat. Kolmanneksi, moniääninen provenienssi-metadata: DAISY 4.0 -paketti voi kantaa sekoitettuja ihmiskerrottuja, tekoälykerrottuja ja matematiikkamoottorin renderoituja laajuuksia, kukin laajuus attribuoituna metadatassaan tuotantomenetelmälleen — läpinäkyvyysvaatimus, jonka nouseva joukko kansallisia hankintasääntöjä alkaa vaatia. Neljänneksi, navigoinnin laajennukset rakenteellisille kohteille, joita oppikirjoissa on aina ollut mutta DAISY 3 käsitteli kankeasti: numeroidut tehtävät, tehtäväsarjat, sanasto-takaisinviittaukset ja nidemääräiset viittaukset.

Siirtymäaikataulu, jonka useimmat tuottajat julkisesti ilmoittavat, on varovainen. DAISY-konsortio odottaa useimpien uusien oppimissisältöjen ilmestyvän DAISY 4.0:na vuoteen 2027–28 mennessä, perinteisen DAISY 2.02 -katalogin pysyessä toistaiseksi soitinpuolella, koska asennettua laitteistosoittimien kantaa ei voida etäpäivittää.

Suurimmat tuottajat ja mitä he tuottavat

Learning Ally, yhdysvaltalainen vuonna 1948 Recording for the Blind -nimisenä perustettu voittoa tavoittelematon järjestö, pitää hallussaan maailman suurinta englanninkielistä äänikirjaoppikirjakatalogiogia — noin 80 000 nimikettä vuodesta 2026 — ja on pääosin ihmiskerrottu noin 1 000 aktiivisen kertojan vapaaehtoisverkostolla. Sen vuoden 2025 strategiapaperi sitoutui tekoälytehostettuun ketjuun (tekoälykerrontaan ensin, ihmislaadunvarmistuksella symbolitiheillä luvuilla) kouluasteen matematiikan ja luonnontieteiden nimikkeille samalla kun ihmiskerronta säilytetään kirjallisuuskanonille.

Bookshare, Benetechin operoima, toimittaa EPUB-ensisijaisen katalogin — yli 1,3 miljoonaa nimikettä vuonna 2026, yleislukijan ja oppimissisällön kategorioissa — joka yhdistää pohjalla olevan tekstin syntetisoituun ääneen, jonka käyttäjän soitin renderoii eikä tuotannossa valmiiksi rakennettuun ääneen. Malli on halvin skaalassa ja eniten DAISY 4.0:n soitin-päättää-arkkitehtuurin mukainen.

RNIB Talking Books Isossa-Britanniassa palvelee noin 25 000 aktiivista jäsentä ja tuottaa noin 1 500 uutta nimikettä vuodessa, pääosin ihmiskerrontana 2024–26 pilottiohjelmalla tekoälykerrontaan tietokirjallisuudelle. Sen katalogi on viite brittiläisen opetussuunnitelman oppikirjayleisölle.

IFLA:n kirjastojen, jotka palvelevat painettujen asiakirjojen kanssa hankaluuksia kokevia henkilöitä (LPD), osasto koordinoi globaalia tuottajaverkostoa ja pyörittää Accessible Books Consortium (ABC) -rajat ylittävää katalogioita Marrakeshin sopimuksen nojalla — mekanismia, jonka avulla yhdessä allekirjoittajamaassa tuotettu kirja voidaan lainata rajojen yli valtuutetuille lukijoille toisessa maassa. ABC:n vuoden 2024 katalogiovaihto raportoi yli 850 000 rajat ylittävää nimikesiirtoa, kertaluokkaa enemmän kuin viisi vuotta aiemmin, ja kasvu on keskittynyt oppimissisältöihin.

Mitä tämä tarkoittaa opiskelijalle vuonna 2026

Vuosien 2024–26 muutosten käytännöllinen vaikutus on, että suuressa englanninkielisessä lainkäyttöalueessa sokealle tai heikkonäköiselle opiskelijalle saatavissa oleva katalogi on kertaluokka suurempi kuin vuosikymmenen alussa, ja viive painotuotteen julkaisun ja saavutettavan äänipainoksen välillä romahtaa vuodesta tai enemmästä viikkoihin. Viive oppikirjoille erityisesti — historiallisesti hitain kategoria matemaattisen ja rakenteellisen monimutkaisuuden vuoksi — sulkeutuu hitaammin, mutta se sulkeutuu.

Mikä ei ole muuttunut, on hyväksyttävän laadun lattia. Oppikirjan on edelleen oltava navigoitava, tarkka ja synkronoitu lähdetekstiinsä. DAISY 4.0:n suunnittelu ja tekoälykerronnan ketjun talouslogiikka tekevät tämän lattian ylittämisestä halvempaa kuin koskaan ennen. Tuottajat, jotka todennäköisimmin menestyvät vuosikymmenen loppupuolella, ovat niitä, jotka ovat lakanneet kehystämästä valintaa “ihminen vai tekoäly” -kysymyksenä ja alkaneet kehystää sen “mitkä lauseet tarvitsevat mitä menetelmää” -kysymyksenä — sekä yliopistojen ja koulujen vammaispalvelutoimistot, jotka ovat lakanneet hyväksymästä “emme voi varaa tuottaa tätä” lopullisena vastauksena.

Lue lisää Disability Worldista kuulovammaisten koulutuksen saavutettavuudesta maailmanlaajuisesti, kansallisista saavutettavuusmääräyksistä ja laajemmasta vuoden 2026 saavutettavuusraportoinnin aineistosta.