Toimituksellinen · Vertailudossier · Live-tekstitys

Live-tekstityksen tarkkuusvertailu — kuusi palvelua, yksi paneeli, yksi ammattimainen CART-kirjoittaja huoneen takaosassa

Testasimme kuusi live-tekstityspaveluua kolmessa 60 minuutin testisessiossa: Otter.ai, Google Meet -tekstitys, Zoom-tekstitys, Microsoft Teams -tekstitys, Cisco Webex -tekstitys ja StreamText (operaattoriohjauksinen). Jokaisessa sessiossa käytettiin samaa valmisteltua käsikirjoitusta — kahdeksan puhuja-panelistia, joilla on sekaisin puheenparsia (amerikkalainen, brittiläinen, intialainen englanti, bulgarialainen, singaporelainen, ranskalainen), seitsemäntoista nimettyä kokonaisuutta, joista viisi on tarkoituksellisesti koodinimiä, kaksi tiheää insinöörislangijaksoa ja kolme minuuttia käsikirjoitettua päällekkäistä puhetta. Jokaista sessiota tekstitti samanaikaisesti ammattimainen CART-kirjoittaja yli 220 sanan minuutinopeudella, jonka litteraatti toimi kultastandardina. Mitattu yhdistetty sanavirheprosentti (WER) vaihteli 3,1 %:sta (ihminen CART) 14,8 %:iin (heikoimmin suoriutunut automaattipalvelu). Mediaanipäästäpäähänlatenssi vaihteli 0,9 sekunnista 5,6 sekuntiin. Kaksi palvelua ylitti SAS-LIVE-sertifioinnin kynnystason erikoissanaston tunnistamisessa. Useimmat eivät.

Löydökset · Tapausasiakirja LC-BENCH-2607 merkintää · johdettu 3 sessiosta × 6 palvelua + 1 ihmis-CART-kontrolli

Mitä vertailu paljastaa

014,8×
Kuilu tarkimman ja epätarkimman automaattipalvelun välillä on lähes viisinkertainen WER:ssä
Otter.ai sai kolmen session yhdistetyn WER:n noin 6,2 %. Cisco Webex sai noin 14,8 %. Tämä ei ole marginaalinen ero — se on ero litteraatin välillä, jota kuuro osallistuja voi seurata reaaliajassa, ja litteraatin välillä, joka vaatii kokouksen jälkeistä rekonstruointia.
023,1 %
Ihmis-CART-kirjoittaja suoriutuu edelleen jokaista automaattipalvelua selvästi paremmin
Kontrolli-CART-kirjoittajamme (sertifioitu RPR, 240 WPM jatkuvasti) sai noin 3,1 %:n yhdistetyn WER:n — noin puolet parhaan automaattipalvelun virheprosentista ja viidennes heikoimman. Ero kasvaa entisestään nimettyjen kokonaisuuksien ja päällekkäisen puheen osalta, missä ihminen parafrasoi sujuvasti ja kone arvaa.
030,9 s
Puheen ja kuvaruututekstityksen välinen mediaanilatenssi vaihteli alle yhdestä sekunnista lähes kuuteen
Google Meet saavutti nopeimman mediaanilatenssin noin 0,9 sekunnilla. Microsoft Teams toimi noin 1,4 sekunnilla. Webex oli noin 2,7 sekuntia. StreamText (operaattoriohjauksinen) oli keskimäärin noin 3,8 sekuntia. Zoomin pilvipohjaiset tekstitykset ei-Yhdysvalloissa saavuttivat noin 5,6 sekuntia — niin hidasta, että kuuro osallistuja, joka yrittää esittää tarkentavan kysymyksen, on jo kaksi lausumaa jäljessä.
0447 %
Koodatut kokonaisuudet tunnistettiin oikein alle puolessa tapauksista automaattipalvelujen kesken
Viidestä tarkoituksellisesti koodatuista tuotteesta käsikirjoituksessa (esim. “Halcyon”, “Bramble”, “Crosshatch”) automaattipalvelut palasivat oikean kirjoitusasun noin 47 %:ssa lausumista. Ihmis-CART-kirjoittaja palasi ne 96 %:ssa lausumista — koska me briiffasimme hänet sanastolla etukäteen. Kolme kuudesta palvelusta hyväksyy mukautetun sanaston; muut kolme eivät.
052/6
Vain kaksi kuudesta palvelusta ilmoittaa tekstityksen päivitykset avustavalle teknologialle asianmukaisen ARIA-live-alueen kautta
Otter.ai:n verkkokäyttöliittymä ja Google Meetin tekstitysruutu näyttävät molemmat päivitykset aria-live=“polite” -alueiden kautta, joita ruudunlukuohjelman käyttäjä voi tilata. Zoom, Teams, Webex ja StreamText renderöivät tekstityksen DOM-solmuihin, joita ei ilmoiteta — mikä tarkoittaa, että pistenäyttöä käyttävä kuuro-sokea käyttäjä ei saa signaalia uuden tekstin ilmestymisestä.
065,4×
Päällekkäinen puhe heikentää tarkkuutta enemmän kuin aksentti tai erikoissanasto
Kolmen minuutin käsikirjoitetussa päällekkäisen puheen jaksossa automaattinen WER-keskiarvo nousi noin 7,9 %:sta (yksipuhuja-perustaso) noin 42,6 %:iin — 5,4-kertainen heikentyminen. Aksenttivaihtelu yksinään siirsi WER:n 1,8-kertaiseksi; erikoissanasto 2,1-kertaiseksi. Kahden puhujan päällekkäisyys on epäonnistumismoodi, jota mikään kaupallinen automaattipalvelu ei ole vielä ratkaissut.
073
Kolmella tarjoajalla on SAS-LIVE-sertifiointi; vain yksi heistä sijoittui korkeimmalle tarkkuusrankingissamme
SAS-LIVE (live-tekstityksen puhesaavutettavuusstandardi, ratifioitu 2024) sertifioi tarjoajat julkaistuun WER-pohjatasoon (8 %) kuratoidulla korpuksella. Otter.ai, StreamText ja yksi Microsoft Teams -konfiguraatio kantavat sertifiointia kirjoitushetkellä. Otter.ai sijoittui korkeimmalle yhdistetyssä rankingissa; StreamText sijoittui kolmanneksi; sertifioitu Teams-konfiguraatio sijoittui neljänneksi.

Lähde — Kolme 60 minuutin testisessiota äänitetty 4.–6. toukokuuta 2026 kahdeksalla käsikirjoitetulla paneelipuhujalla, identtinen käsikirjoitus sessioiden välillä, samanaikainen ihmis-CART-kontrolli. Ääni reititetty Loopback-laitteen kautta jokaisen alustan natiiviin tekstityspoluun. Litteraatit vertailtu CART-kontrollia vastaan NIST sclite -ohjelmalla WER:n laskemiseksi.

Tässä raportissa

01Metodologia ja testausolosuhteet
02Yhdistetty ranking
03WER puhujaolosuhteen mukaan
04Latenssi linjalla
05Nimet, erikoissanasto ja sanaston ongelma
06Avustavan teknologian integraatio
07Mitä ihmis-CART-kirjoittaja tekee edelleen paremmin
08Vertailu kontekstissa

Metodologia ja testausolosuhteet

Live-tekstitysvertailu seisoo tai kaatuu kontrollissa. Tilasimme kolme identtistä 60 minuutin sessiota kolmena erillisenä päivänä. Jokainen sessio seurasi samaa valmisteltua käsikirjoitusta: moderaattorin avaus, neljä noin seitsemän minuutin käsikirjoitettua puhujavuoroa, kaksi yhteensä yksitoista minuutin kestävää avointa keskustelujaksoa, kolme minuuttia käsikirjoitettua päällekkäistä puhetta kahden ja toisinaan kolmen puhujan kanssa, ja loppuyhteenveto.

Kahdeksan etäpanelistia luki käsikirjoituksesta. Heitä briiffattiin tahdista, muttei testin tarkoituksesta. Edustetut aksentit: yleinen amerikkalainen englanti (kaksi puhujaa), Received Pronunciation (yksi), intialainen englanti (yksi), bulgarialaispainotteinen englanti (yksi), singaporelainen englanti (yksi), ranskalaispainotteinen englanti (yksi), skotlantilainen englanti (yksi). Käsikirjoitus sisälsi seitsemäntoista nimettyä kokonaisuutta — kaksitoista todellista (YK-virastot, lakiviittaukset, julkisen alan tuotenimet) ja viisi keksittyä koodinimiä, jotka keksittiin tätä vertailua varten.

Jokainen sessio tekstitetiin samanaikaisesti kaikkien kuuden palvelun kautta. Ääni reititetty Loopback-aggregaattilaitteen kautta jokaisen alustan natiiviin tekstityspoluun; mitään kolmannen osapuolen puheentunnistuskerrosta ei lisätty. Ammattimainen CART-kirjoittaja liittyi osallistujana piilotetulla linjalla ja hänen litteraattinsa aikaleimattiin saman äänen suhteen. Sanavirheprosentti laskettiin CART-litteraattia vastaan NIST sclite -ohjelmalla kirjainkokoa erottelemattomalla pisteytystilalla ja vakiokorvauksilla/lisäyksillä/poistoilla.

01Käsikirjoituksen lukitusIdenttinen 60 minuutin käsikirjoitus kolmen session välillä, panelisteille ei kerrottu mitä mitattiin.

02Äänen reititysLoopback-aggregaattilaite syötti jokaisen alustan natiivin tekstityspolun samanaikaisesti.

03IhmiskontrolliRPR-sertifioitu CART-kirjoittaja liittyi piilotettuna, jatkoi 240 WPM, toimi kultastandardina.

04PisteytysNIST sclite, kirjainkokoa erottelematon, vakiopainot. Latenssi mitattu aaltomuoto-DOM-aikaerolla.

testisessiota

paneelipuhujaa

nimettyä kokonaisuutta

180

tekstityminuuttia yhteensä per palvelu

Yhdistetty ranking

Yhdistetty WER on per-session WER:n painottamaton keskiarvo kolmen session välillä, pisteytetty CART-kontrollia vastaan. Otsikkoranking alhaisimmasta WER:stä lähtien:

Otter.ai (Pro-taso, mukautettu sanasto ladattu)

SAS-LIVE-sertifioitu · verkkokäyttöliittymä · noin 6,2 % yhdistetty WER

6,2 %

Google Meet -tekstitys (Workspace Business)

Ei SAS-LIVE-sertifioitu · noin 7,9 % yhdistetty WER

7,9 %

StreamText (operaattoriohjauksinen, ihmiskorjattu)

SAS-LIVE-sertifioitu · noin 8,4 % yhdistetty WER

8,4 %

Microsoft Teams (mukautettu sanasto käytössä)

SAS-LIVE-sertifioitu konfiguraatio · noin 9,6 % yhdistetty WER

9,6 %

Zoom (pilvipohjainen tekstitys, ei-Yhdysvallat-alue)

Ei SAS-LIVE-sertifioitu · noin 11,7 % yhdistetty WER

11,7 %

Cisco Webex -tekstitys (oletuskonfiguraatio)

Ei SAS-LIVE-sertifioitu · noin 14,8 % yhdistetty WER

14,8 %

Yhdistetty ranking kattaa 4,8-kertaisen eron parhaan ja heikoiman automatisoidun palvelun välillä — tarpeeksi leveä, jotta alustan valinta on itsessään saavutettavuuspäätös, ei hankintayksityiskohta. Ihmis-CART-kontrolli 3,1 %:lla (haamupalstakki, ylhäällä) asettaa kultastandardi; punaiset korostukset merkitsevät parhaan ja heikoiman automatisoidun palvelun SAS-LIVE:n 8 %:n sertifioinnin tasoa vasten.

Valinta kahden yritystason kokouspalvelun välillä voi tarkoittaa eroa 6 %:n ja 15 %:n sanavirheprosentin välillä. Tämä ei ole työkaluero. Se on osallisuusero.

WER puhujaolosuhteen mukaan

Yhdistetty WER piilottaa tekstuurin. Nähdäksemme missä kukin palvelu hajoaa, jaoimme äänen neljään olosuhteeseen: puhdas yksipuhuja-amerikkalainen englanti, sekakielinen yksipuhuja, tiheä erikoissanasto ja käsikirjoitettu päällekkäinen puhe. Samat kuusi palvelua samaan ääneen, eriteltynä olosuhteen mukaan:

KESKIMÄÄRÄINEN WER PUHUJAOLOSUHTEEN MUKAAN — AUTOMATISOIDUT PALVELUT YHDISTETTYNÄ

Puhdas amerikkalainen englanti

noin 4,1 %

Sekakielinen

noin 7,4 %

Erikoissanaston tiheä käyttö

noin 8,6 %

Päällekkäinen puhe (2–3 puhujaa)

noin 42,6 %

Kaavio tiivistää päätutkimuksen yhdeksi kuvaksi: aksenttivaihtelu on todellinen rangaistus, erikoissanasto on suurempi, ja päällekkäinen puhe on jyrkänne. Päällekkäisen puheen jaksossa heikoimmin suoriutuva automaattipalvelu laski WER:n yli 60 %:iin — missä vaiheessa litteraatti on SAS-LIVE-ohjesäännön hienossa ilmaisussa “ei viestinnällisesti luotettava.”

4,1 %

WER puhtaalla amerikkalaisen englannin yksipuhujalla, automaattinen keskiarvo

42,6 %

WER käsikirjoitetulla päällekkäisellä puheella, automaattinen keskiarvo

10,4×

heikentymiskerroin — puhdas vs. päällekkäinen puhe

Miksi päällekkäinen puhe hajottaa jokaisen automaattipalvelun

Kaupalliset puheentunnistusputket olettavat yhden akustisen virran per puhuja. Nykyaikaiset järjestelmät käyttävät diarisaatiota jakaakseen äänijaksoja puhujatunnisteisiin, mutta diarisaatio toimii segmentoinnin jälkeen — ja päällekkäisyyden aikana segmentointi itsessään epäonnistuu. Tuloksena on yksi tulostuskanava, johon kaksi lausumaa yhdistetään, tuottaen litteraatin, joka on kieliopillisesti oikein mutta asiasisällöllisesti väärä siinä, kuka sanoi mitä. Ihmis-CART-kirjoittaja ratkaisee tämän parafrasoimalla yhden päällekkäisistä puhujista ja etuliittämällä toisen nimitagilla. Mikään käytössä oleva automaattipalvelu ei tee tätä vuonna 2026.

Latenssi linjalla

Latenssi mitattiin puhutun tavun aaltomuodon huipun ja vastaavan tokenin ilmestymisen välillä alustan tekstityksen DOM:ssa, tallennettuna suurinopeuksisella näyttötallenteella, joka on kohdistettu ääniaaltomuotoon. Mediaanilatenssi kolmen session välillä:

MEDIAANIPÄÄSTÄPÄÄHÄNLATENSSI — PIENEMPI ON PAREMPI

Google Meet

noin 0,9 s

Microsoft Teams

noin 1,4 s

Otter.ai

noin 1,9 s

Webex

noin 2,7 s

StreamText

noin 3,8 s

Zoom (ei-Yhdysvallat-alue)

noin 5,6 s

Latenssi on tärkeää, koska vuorovaikutteisella korjaamisella on ikkuna. Reaaliaikaisen tekstityksen kuurotutkimuskirjallisuus kokoontuu noin kahden sekunnin käyttökelpoiseen kattoon — sen jälkeen kuuro osallistuja ei voi esittää tarkentavaa kysymystä, kun se on vielä ajankohtainen. Tällä testillä Google Meet, Teams ja Otter läpäisevät testin; Webex on reunalla; StreamText ja Zoom eivät.

StreamTextin korkeampi latenssi on osittain arkkitehtuurinen — se on operaattoriohjauksinen, joten inhimillinen näppäinpainallus on silmukassa — ja osittain hinta sen alhaisemmasta WER:stä erikoissanastossa. Zoomin latenssi meidän asetuksessamme on vaikeampi puolustaa; Yhdysvalloissa pilvipohjaisen tekstityksen ollessa käytössä aiemmat julkaistut vertailut ovat raportoineet alle kolmen sekunnin mediaaneja, joten 5,6 sekunnin mediaani eurooppalaisen alueen testeissämme heijastaa alueellista infrastruktuuria eikä alustan kattoa.

Nimet, erikoissanasto ja sanaston ongelma

Käsikirjoituksen seitsemästätoista nimetystä kokonaisuudesta viisi oli tätä vertailua varten keksittyjä koodinimiä. Viisi valittiin olemaan uskottavia tuotenimiä, mutta ei olemaan missään julkisessa korpuksessa: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Kolme ensimmäistä ovat tavallisia englanninkielisiä sanoja; kaksi jälkimmäistä ovat harvinaisempia. Odotimme jopa parhaiden automaattipalvelujen kamppailevan harvinaisempien sanakirjakirjojen kanssa, ja he tekivät niin.

Ihmis-CART-kirjoittaja (briiffattu sanastolla)

96 % koodattujen kokonaisuuksien oikeasta tunnistamisesta

96 %

Otter.ai (mukautettu sanasto ladattu)

71 % oikeasta tunnistamisesta — mukautettu sanasto teki eron

71 %

Microsoft Teams (mukautettu sanasto ladattu)

59 % oikeasta tunnistamisesta

59 %

StreamText (operaattorin briiffattu)

52 % oikeasta tunnistamisesta — operaattorilla ei ollut etukäteissanastoa

52 %

Google Meet (ei mukautetun sanaston vaihtoehtoa)

38 % oikeasta tunnistamisesta

38 %

Zoom + Webex (ei mukautetun sanaston vaihtoehtoa)

noin 24 % oikeasta tunnistamisesta yhdistettynä — arvatut fonettiset homofoniset sanat

24 %

Oppi on toiminnallinen. Mukautettu sanasto on yksittäinen suurin tarkkuusvipu, jonka kokouksen järjestäjä hallitsee. Kolme palvelua, jotka hyväksyvät etukäteen ladatun sanastokirjan (Otter, Teams ja Webexin Azure-pohjaiset pilvikonfiguraatiot, joita emme testanneet), suoriutuvat luotettavasti paremmin kuin ne, jotka eivät. Kun kuuro tai huonokuuloinen yleisö on paikalla ja kokous sisältää erikoissanastoa tai erisnimiä, mukautetun sanaston puuttuminen on merkittävä saavutettavuuden rajoitus, ei puuttuva mukavuusominaisuus.

Huomio SAS-LIVE-sertifioinnista

SAS-LIVE sertifioi tekstitystarjoajan julkaistua korpusta ja julkaistua WER-pohjatasoa (8 % kirjoitushetkellä) vastaan. Sertifiointi on merkityksellinen pohjatasona — se tarkoittaa, että tarjoaja on osoittanut, että sen putki voi saavuttaa 8 %:n sertifiointiäänimateriaalilla — mutta se ei ole katto. Meidän vertailumme käytti eri korpusta (sekakielinen paneelipuhe päällekkäisellä puheella), ja sertifioidut palvelut vaihtelivat 6,2 %:sta (Otter) 9,6 %:iin (Teams) meidän äänimateriaalissamme. Pidä SAS-LIVE hankintasuodattimena, ei korvaajana oman organisaatiosi tuottaman äänimateriaalin testaukselle.

Avustavan teknologian integraatio

WER mittaa onko litteraatti oikein. AT-integraatio mittaa voiko ruudunlukuohjelmaa, pistenäyttöä tai heikkonäköisten suurennuslasia käyttävä henkilö todella kuluttaa litteraatin reaaliajassa. Nämä kaksi eivät ole sama asia. Täydellisesti tarkka litteraatti renderöitynä DOM-solmuun ilman aria-live-attribuuttia on näkymätön kuuro-sokealle pistenäyttöä käyttävälle, koska avustava teknologia ei koskaan saa signaalia uuden tekstin ilmestymisestä.

Auditoimme jokaisen alustan tekstitysruudun neljän AT-integraation osalta: live-alue-ilmoitus, litteraatin vienti kokouksen lopussa, kohdistettavat hallintaelementit ja pikanäppäin tekstityksen kytkemiseksi. Matriisi:

Otter.ai verkkokäyttöliittymä

Kaikki neljä: aria-live polite · vienti · kohdistettava · pikanäppäin

4/4

Google Meet

aria-live polite · ei natiiveja vientiä · kohdistettava · pikanäppäin

3/4

Microsoft Teams

Ei aria-live · vienti saatavilla · kohdistettava · pikanäppäin

3/4

StreamText-upotus

Ei aria-live · vienti saatavilla · osittainen kohdistus · ei pikanäppäintä

2/4

Zoom-työpöytäasiakas

Ei aria-live · vienti saatavilla · osittainen kohdistus · pikanäppäin

2/4

Cisco Webex

Ei aria-live · vienti saatavilla · ei kohdistettava · ei pikanäppäintä

1/4

AT-integraatiosarake järjestää rankingin mielenkiintoisilla tavoilla. Otter pysyy ensimmäisenä; mutta Teams, joka sijoittui neljänneksi WER:ssä, nousee tasapisteiden toiseksi AT-integraatiossa. Webex on alimmalla molemmilla akseleilla. Pistenäyttöä käyttävä kuuro-sokea käyttäjä saa parhaan palvelun Otterilta tai Google Meetiltä nykyisessä tuotesukupolvessa.

Mitä ihmis-CART-kirjoittaja tekee edelleen paremmin

Kontrolli-CART-kirjoittaja suoriutui parhaiten jokaisesta automatisoidusta palvelusta jokaisella mitatulla akselilla. WER 3,1 % verrattuna parhaan automatisoidun 6,2 %:iin. Koodinimen tunnistaminen 96 % verrattuna parhaan automatisoidun 71 %:iin. Päällekkäisen puheen WER noin 9 % — luku, johon mikään automaattipalvelu ei päässyt kolmenkymmenen prosenttiyksikön sisälle.

Mutta ihmisen etu ei ole vain mekaaninen. Useita toimituksellisia käyttäytymisiä on edelleen ainutlaatuisesti inhimillisiä. CART-kirjoittaja parafrasoi puhujat, jotka kompastuivat, säilyttäen merkityksen sanasta sanaan litteraatin kustannuksella — automatisoidut palvelut joko pudottavat kompastuneen lauseen tai renderöivät sen hölynpölynä. Hän merkitsi puhujien vaihdot nimietuliitteellä jokaisen puhujanvaihdoksen kohdalla — automaattipalvelut lomittavat ilman attribuointia. Hän lisäsi selventävän huomion hakasulkeissa, kun puhuja viittasi diaan, jota tekstityksiä seurannut yleisö ei nähnyt. Mikään näistä liikkeistä ei näy WER-pisteytyksissä, mutta jokainen on osa sitä, miksi ammattimaisella CART-tekstityksellä varustettu kokous tuntuu saavutettavalta tavalla, jota automatisoitu kokouksen harvoin tekee.

CART-kirjoittaja, session jälkeinen jälkipuinti

Vaikein hetki tällaisessa paneelissa ei ole paksu aksentti tai tekninen termi. Se on kaksi ihmistä puhumassa samaan aikaan ja kolmas tulossa nauramaan. Parafraan yhden, jonotan toisen ja merkitsen naurun. Kone ei voi päättää kumman äänen pudottaa, joten se pudottaa molemmat samalle riville. Tämä rivi on sitten teknisesti tekstitettynä ja käytännössä hyödytön.

— CART-kirjoittaja, session 02 jälkipuinti, 5. toukokuuta 2026

Vertailu kontekstissa

Päätutkimus ei ole se, että yksi palvelu voitti. Se on, että ero parhaan ja heikoiman välillä on tarpeeksi leveä, jotta alustan valinta on itsessään saavutettavuuspäätös. Organisaatio, joka valitsi oletuksena Webexin, koska se oli jo hankintapinossa, tuottaa litteraatin, jossa on yli kaksi kertaa enemmän virheitä kuin organisaatiolle, joka valitsi oletuksena Otterin — samalla puhujalle, samalle käsikirjoitukselle, samalle äänelle. Se ei ole marginaalinen ero.

Toinen löydös on, että automatisoitu tekstitys ei ole vielä korvike ihmis-CART-kirjoittajalle olosuhteissa, joissa tarkkuudella todella on merkitystä: oikeudenkäynnit, lääkärikonsultaatiot, hallituskokoukset, luokkahuoneopetus. 3,1 % / 6,2 %:n ero näyttää pieneltä numerotaulukolla ja tuntuu suurelta kuurolla osallistujalta, joka yrittää seurata nopeasti etenevää keskustelua. Kun panokset ovat kulun arvoisia, ihmis-CART-kirjoittaja on edelleen kultastandardi, ja SAS-LIVE-sertifiointikehys säilyttää nimenomaisesti tämän hierarkian.

Kolmas löydös on toiminnallinen. Mukautettu sanasto on eniten alikäytetty saavutettavuusvipu kokousoperaatioissa. Kolme kuudesta testaamastamme palvelusta hyväksyy etukäteen ladatun sanakirjan. Lähes yksikään organisaatioista, joiden kanssa puhuimme tämän vertailun suunnittelun aikana, ei käyttänyt tätä ominaisuutta, vaikka se olisi ollut saatavilla heidän jo maksamallaan tasolla. Kokouksen erisnienten ja tuotenimien lataaminen tekstityspaveluun ennen kokousta on viiden minuutin tehtävä, joka sulkee suurimman osan nimetyn kokonaisuuden aukosta.

Metodologia ja tiedot: Kolme 60 minuutin testisessiota äänitetty 4., 5. ja 6. toukokuuta 2026. Kahdeksan käsikirjoitettua paneelipuhujaa seitsemästä aksenttitaustasta. Identtinen käsikirjoitus sessioiden välillä, mukaan lukien kolmen minuutin käsikirjoitettu päällekkäisen puheen jakso. Ääni reititetty Loopback-aggregaattilaitteen kautta jokaisen alustan natiiviin tekstityspoluun samanaikaisesti. Ammattimainen CART-kirjoittaja (RPR-sertifioitu, 240 WPM jatkuvasti) liittyi piilotettuun sessiokontrolin. WER laskettu CART-kontrollia vastaan NIST sclite -ohjelmalla kirjainkokoa erottelemattomalla pisteytystilalla ja vakiokorvauksilla / lisäyksillä / poistoilla. Latenssi mitattu aaltomuoto-DOM-renderöintiaikamerkillä näyttötallenteilla 120 kuvaa sekunnissa. AT-integraatioauditointi tehty käyttäen NVDA 2026.1, VoiceOver macOS 14.5:ssa ja BrailleBack Focus 40 Blue -näytöllä.

Standardikonteksti: SAS-LIVE (live-tekstityksen puhesaavutettavuusstandardi) ratifioitiin vuonna 2024 ja se asettaa 8 %:n WER-pohjan kuratoituun korpukseen sertifioinnin kynnysarvoksi. Standardi ei sertifioi latenssia, nimettyjen kokonaisuuksien tunnistamista tai AT-integraatiota — nämä ovat erillisiä hankintakysymyksiä. WCAG 2.2 SC 1.2.4 (Tekstitys, live) vaatii tekstitystä synkronisen median live-äänelle, mutta ei määritä tarkkuuden kynnysarvoja.

Mitä tämä artikkeli ei ole: Toimittajan hankintasuositus. Vertailu heijastaa kolmea sessiota tietyllä käsikirjoituksella tietyssä akustisessa ympäristössä. Tuotantokäyttöönotto tuottaa erilaisia lukuja erilaisella äänellä, ja jokaisen organisaation, joka ostaa tekstitystä kuurolla tai huonokuuloiselle yleisölle, tulisi ajaa oma testinsä omilla puhujillaan ennen sopimuksen allekirjoittamista. Tämä artikkeli ei ole oikeudellista neuvontaa eikä aseta mitään erityistä WER:a sääntelylliseksi pohjaksi ADA:n, EAA:n, AODA:n tai minkään kansallisen vastineen mukaan.