Live-tekstityksen tarkkuusvertailu — kuusi palvelua, yksi paneeli, yksi ammattimainen CART-kirjoittaja huoneen takaosassa
Testasimme kuusi live-tekstityspaveluua kolmessa 60 minuutin testisessiossa: Otter.ai, Google Meet -tekstitys, Zoom-tekstitys, Microsoft Teams -tekstitys, Cisco Webex -tekstitys ja StreamText (operaattoriohjauksinen). Jokaisessa sessiossa käytettiin samaa valmisteltua käsikirjoitusta — kahdeksan puhuja-panelistia, joilla on sekaisin puheenparsia (amerikkalainen, brittiläinen, intialainen englanti, bulgarialainen, singaporelainen, ranskalainen), seitsemäntoista nimettyä kokonaisuutta, joista viisi on tarkoituksellisesti koodinimiä, kaksi tiheää insinöörislangijaksoa ja kolme minuuttia käsikirjoitettua päällekkäistä puhetta. Jokaista sessiota tekstitti samanaikaisesti ammattimainen CART-kirjoittaja yli 220 sanan minuutinopeudella, jonka litteraatti toimi kultastandardina. Mitattu yhdistetty sanavirheprosentti (WER) vaihteli 3,1 %:sta (ihminen CART) 14,8 %:iin (heikoimmin suoriutunut automaattipalvelu). Mediaanipäästäpäähänlatenssi vaihteli 0,9 sekunnista 5,6 sekuntiin. Kaksi palvelua ylitti SAS-LIVE-sertifioinnin kynnystason erikoissanaston tunnistamisessa. Useimmat eivät.
Mitä vertailu paljastaa
- 014,8×
Kuilu tarkimman ja epätarkimman automaattipalvelun välillä on lähes viisinkertainen WER:ssä
Otter.ai sai kolmen session yhdistetyn WER:n noin 6,2 %. Cisco Webex sai noin 14,8 %. Tämä ei ole marginaalinen ero — se on ero litteraatin välillä, jota kuuro osallistuja voi seurata reaaliajassa, ja litteraatin välillä, joka vaatii kokouksen jälkeistä rekonstruointia.
- 023,1 %
Ihmis-CART-kirjoittaja suoriutuu edelleen jokaista automaattipalvelua selvästi paremmin
Kontrolli-CART-kirjoittajamme (sertifioitu RPR, 240 WPM jatkuvasti) sai noin 3,1 %:n yhdistetyn WER:n — noin puolet parhaan automaattipalvelun virheprosentista ja viidennes heikoimman. Ero kasvaa entisestään nimettyjen kokonaisuuksien ja päällekkäisen puheen osalta, missä ihminen parafrasoi sujuvasti ja kone arvaa.
- 030,9 s
Puheen ja kuvaruututekstityksen välinen mediaanilatenssi vaihteli alle yhdestä sekunnista lähes kuuteen
Google Meet saavutti nopeimman mediaanilatenssin noin 0,9 sekunnilla. Microsoft Teams toimi noin 1,4 sekunnilla. Webex oli noin 2,7 sekuntia. StreamText (operaattoriohjauksinen) oli keskimäärin noin 3,8 sekuntia. Zoomin pilvipohjaiset tekstitykset ei-Yhdysvalloissa saavuttivat noin 5,6 sekuntia — niin hidasta, että kuuro osallistuja, joka yrittää esittää tarkentavan kysymyksen, on jo kaksi lausumaa jäljessä.
- 0447 %
Koodatut kokonaisuudet tunnistettiin oikein alle puolessa tapauksista automaattipalvelujen kesken
Viidestä tarkoituksellisesti koodatuista tuotteesta käsikirjoituksessa (esim. “Halcyon”, “Bramble”, “Crosshatch”) automaattipalvelut palasivat oikean kirjoitusasun noin 47 %:ssa lausumista. Ihmis-CART-kirjoittaja palasi ne 96 %:ssa lausumista — koska me briiffasimme hänet sanastolla etukäteen. Kolme kuudesta palvelusta hyväksyy mukautetun sanaston; muut kolme eivät.
- 052/6
Vain kaksi kuudesta palvelusta ilmoittaa tekstityksen päivitykset avustavalle teknologialle asianmukaisen ARIA-live-alueen kautta
Otter.ai:n verkkokäyttöliittymä ja Google Meetin tekstitysruutu näyttävät molemmat päivitykset
aria-live=“polite”-alueiden kautta, joita ruudunlukuohjelman käyttäjä voi tilata. Zoom, Teams, Webex ja StreamText renderöivät tekstityksen DOM-solmuihin, joita ei ilmoiteta — mikä tarkoittaa, että pistenäyttöä käyttävä kuuro-sokea käyttäjä ei saa signaalia uuden tekstin ilmestymisestä. - 065,4×
Päällekkäinen puhe heikentää tarkkuutta enemmän kuin aksentti tai erikoissanasto
Kolmen minuutin käsikirjoitetussa päällekkäisen puheen jaksossa automaattinen WER-keskiarvo nousi noin 7,9 %:sta (yksipuhuja-perustaso) noin 42,6 %:iin — 5,4-kertainen heikentyminen. Aksenttivaihtelu yksinään siirsi WER:n 1,8-kertaiseksi; erikoissanasto 2,1-kertaiseksi. Kahden puhujan päällekkäisyys on epäonnistumismoodi, jota mikään kaupallinen automaattipalvelu ei ole vielä ratkaissut.
- 073
Kolmella tarjoajalla on SAS-LIVE-sertifiointi; vain yksi heistä sijoittui korkeimmalle tarkkuusrankingissamme
SAS-LIVE (live-tekstityksen puhesaavutettavuusstandardi, ratifioitu 2024) sertifioi tarjoajat julkaistuun WER-pohjatasoon (8 %) kuratoidulla korpuksella. Otter.ai, StreamText ja yksi Microsoft Teams -konfiguraatio kantavat sertifiointia kirjoitushetkellä. Otter.ai sijoittui korkeimmalle yhdistetyssä rankingissa; StreamText sijoittui kolmanneksi; sertifioitu Teams-konfiguraatio sijoittui neljänneksi.
Lähde — Kolme 60 minuutin testisessiota äänitetty 4.–6. toukokuuta 2026 kahdeksalla käsikirjoitetulla paneelipuhujalla, identtinen käsikirjoitus sessioiden välillä, samanaikainen ihmis-CART-kontrolli. Ääni reititetty Loopback-laitteen kautta jokaisen alustan natiiviin tekstityspoluun. Litteraatit vertailtu CART-kontrollia vastaan NIST sclite -ohjelmalla WER:n laskemiseksi.
Metodologia ja testausolosuhteet
Live-tekstitysvertailu seisoo tai kaatuu kontrollissa. Tilasimme kolme identtistä 60 minuutin sessiota kolmena erillisenä päivänä. Jokainen sessio seurasi samaa valmisteltua käsikirjoitusta: moderaattorin avaus, neljä noin seitsemän minuutin käsikirjoitettua puhujavuoroa, kaksi yhteensä yksitoista minuutin kestävää avointa keskustelujaksoa, kolme minuuttia käsikirjoitettua päällekkäistä puhetta kahden ja toisinaan kolmen puhujan kanssa, ja loppuyhteenveto.
Kahdeksan etäpanelistia luki käsikirjoituksesta. Heitä briiffattiin tahdista, muttei testin tarkoituksesta. Edustetut aksentit: yleinen amerikkalainen englanti (kaksi puhujaa), Received Pronunciation (yksi), intialainen englanti (yksi), bulgarialaispainotteinen englanti (yksi), singaporelainen englanti (yksi), ranskalaispainotteinen englanti (yksi), skotlantilainen englanti (yksi). Käsikirjoitus sisälsi seitsemäntoista nimettyä kokonaisuutta — kaksitoista todellista (YK-virastot, lakiviittaukset, julkisen alan tuotenimet) ja viisi keksittyä koodinimiä, jotka keksittiin tätä vertailua varten.
Jokainen sessio tekstitetiin samanaikaisesti kaikkien kuuden palvelun kautta. Ääni reititetty Loopback-aggregaattilaitteen kautta jokaisen alustan natiiviin tekstityspoluun; mitään kolmannen osapuolen puheentunnistuskerrosta ei lisätty. Ammattimainen CART-kirjoittaja liittyi osallistujana piilotetulla linjalla ja hänen litteraattinsa aikaleimattiin saman äänen suhteen. Sanavirheprosentti laskettiin CART-litteraattia vastaan NIST sclite -ohjelmalla kirjainkokoa erottelemattomalla pisteytystilalla ja vakiokorvauksilla/lisäyksillä/poistoilla.
Yhdistetty ranking
Yhdistetty WER on per-session WER:n painottamaton keskiarvo kolmen session välillä, pisteytetty CART-kontrollia vastaan. Otsikkoranking alhaisimmasta WER:stä lähtien:
Valinta kahden yritystason kokouspalvelun välillä voi tarkoittaa eroa 6 %:n ja 15 %:n sanavirheprosentin välillä. Tämä ei ole työkaluero. Se on osallisuusero.
WER puhujaolosuhteen mukaan
Yhdistetty WER piilottaa tekstuurin. Nähdäksemme missä kukin palvelu hajoaa, jaoimme äänen neljään olosuhteeseen: puhdas yksipuhuja-amerikkalainen englanti, sekakielinen yksipuhuja, tiheä erikoissanasto ja käsikirjoitettu päällekkäinen puhe. Samat kuusi palvelua samaan ääneen, eriteltynä olosuhteen mukaan:
Kaavio tiivistää päätutkimuksen yhdeksi kuvaksi: aksenttivaihtelu on todellinen rangaistus, erikoissanasto on suurempi, ja päällekkäinen puhe on jyrkänne. Päällekkäisen puheen jaksossa heikoimmin suoriutuva automaattipalvelu laski WER:n yli 60 %:iin — missä vaiheessa litteraatti on SAS-LIVE-ohjesäännön hienossa ilmaisussa “ei viestinnällisesti luotettava.”
Kaupalliset puheentunnistusputket olettavat yhden akustisen virran per puhuja. Nykyaikaiset järjestelmät käyttävät diarisaatiota jakaakseen äänijaksoja puhujatunnisteisiin, mutta diarisaatio toimii segmentoinnin jälkeen — ja päällekkäisyyden aikana segmentointi itsessään epäonnistuu. Tuloksena on yksi tulostuskanava, johon kaksi lausumaa yhdistetään, tuottaen litteraatin, joka on kieliopillisesti oikein mutta asiasisällöllisesti väärä siinä, kuka sanoi mitä. Ihmis-CART-kirjoittaja ratkaisee tämän parafrasoimalla yhden päällekkäisistä puhujista ja etuliittämällä toisen nimitagilla. Mikään käytössä oleva automaattipalvelu ei tee tätä vuonna 2026.
Latenssi linjalla
Latenssi mitattiin puhutun tavun aaltomuodon huipun ja vastaavan tokenin ilmestymisen välillä alustan tekstityksen DOM:ssa, tallennettuna suurinopeuksisella näyttötallenteella, joka on kohdistettu ääniaaltomuotoon. Mediaanilatenssi kolmen session välillä:
Latenssi on tärkeää, koska vuorovaikutteisella korjaamisella on ikkuna. Reaaliaikaisen tekstityksen kuurotutkimuskirjallisuus kokoontuu noin kahden sekunnin käyttökelpoiseen kattoon — sen jälkeen kuuro osallistuja ei voi esittää tarkentavaa kysymystä, kun se on vielä ajankohtainen. Tällä testillä Google Meet, Teams ja Otter läpäisevät testin; Webex on reunalla; StreamText ja Zoom eivät.
StreamTextin korkeampi latenssi on osittain arkkitehtuurinen — se on operaattoriohjauksinen, joten inhimillinen näppäinpainallus on silmukassa — ja osittain hinta sen alhaisemmasta WER:stä erikoissanastossa. Zoomin latenssi meidän asetuksessamme on vaikeampi puolustaa; Yhdysvalloissa pilvipohjaisen tekstityksen ollessa käytössä aiemmat julkaistut vertailut ovat raportoineet alle kolmen sekunnin mediaaneja, joten 5,6 sekunnin mediaani eurooppalaisen alueen testeissämme heijastaa alueellista infrastruktuuria eikä alustan kattoa.
Nimet, erikoissanasto ja sanaston ongelma
Käsikirjoituksen seitsemästätoista nimetystä kokonaisuudesta viisi oli tätä vertailua varten keksittyjä koodinimiä. Viisi valittiin olemaan uskottavia tuotenimiä, mutta ei olemaan missään julkisessa korpuksessa: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Kolme ensimmäistä ovat tavallisia englanninkielisiä sanoja; kaksi jälkimmäistä ovat harvinaisempia. Odotimme jopa parhaiden automaattipalvelujen kamppailevan harvinaisempien sanakirjakirjojen kanssa, ja he tekivät niin.
Oppi on toiminnallinen. Mukautettu sanasto on yksittäinen suurin tarkkuusvipu, jonka kokouksen järjestäjä hallitsee. Kolme palvelua, jotka hyväksyvät etukäteen ladatun sanastokirjan (Otter, Teams ja Webexin Azure-pohjaiset pilvikonfiguraatiot, joita emme testanneet), suoriutuvat luotettavasti paremmin kuin ne, jotka eivät. Kun kuuro tai huonokuuloinen yleisö on paikalla ja kokous sisältää erikoissanastoa tai erisnimiä, mukautetun sanaston puuttuminen on merkittävä saavutettavuuden rajoitus, ei puuttuva mukavuusominaisuus.
SAS-LIVE sertifioi tekstitystarjoajan julkaistua korpusta ja julkaistua WER-pohjatasoa (8 % kirjoitushetkellä) vastaan. Sertifiointi on merkityksellinen pohjatasona — se tarkoittaa, että tarjoaja on osoittanut, että sen putki voi saavuttaa 8 %:n sertifiointiäänimateriaalilla — mutta se ei ole katto. Meidän vertailumme käytti eri korpusta (sekakielinen paneelipuhe päällekkäisellä puheella), ja sertifioidut palvelut vaihtelivat 6,2 %:sta (Otter) 9,6 %:iin (Teams) meidän äänimateriaalissamme. Pidä SAS-LIVE hankintasuodattimena, ei korvaajana oman organisaatiosi tuottaman äänimateriaalin testaukselle.
Avustavan teknologian integraatio
WER mittaa onko litteraatti oikein. AT-integraatio mittaa voiko ruudunlukuohjelmaa, pistenäyttöä tai heikkonäköisten suurennuslasia käyttävä henkilö todella kuluttaa litteraatin reaaliajassa. Nämä kaksi eivät ole sama asia. Täydellisesti tarkka litteraatti renderöitynä DOM-solmuun ilman aria-live-attribuuttia on näkymätön kuuro-sokealle pistenäyttöä käyttävälle, koska avustava teknologia ei koskaan saa signaalia uuden tekstin ilmestymisestä.
Auditoimme jokaisen alustan tekstitysruudun neljän AT-integraation osalta: live-alue-ilmoitus, litteraatin vienti kokouksen lopussa, kohdistettavat hallintaelementit ja pikanäppäin tekstityksen kytkemiseksi. Matriisi:
AT-integraatiosarake järjestää rankingin mielenkiintoisilla tavoilla. Otter pysyy ensimmäisenä; mutta Teams, joka sijoittui neljänneksi WER:ssä, nousee tasapisteiden toiseksi AT-integraatiossa. Webex on alimmalla molemmilla akseleilla. Pistenäyttöä käyttävä kuuro-sokea käyttäjä saa parhaan palvelun Otterilta tai Google Meetiltä nykyisessä tuotesukupolvessa.
Mitä ihmis-CART-kirjoittaja tekee edelleen paremmin
Kontrolli-CART-kirjoittaja suoriutui parhaiten jokaisesta automatisoidusta palvelusta jokaisella mitatulla akselilla. WER 3,1 % verrattuna parhaan automatisoidun 6,2 %:iin. Koodinimen tunnistaminen 96 % verrattuna parhaan automatisoidun 71 %:iin. Päällekkäisen puheen WER noin 9 % — luku, johon mikään automaattipalvelu ei päässyt kolmenkymmenen prosenttiyksikön sisälle.
Mutta ihmisen etu ei ole vain mekaaninen. Useita toimituksellisia käyttäytymisiä on edelleen ainutlaatuisesti inhimillisiä. CART-kirjoittaja parafrasoi puhujat, jotka kompastuivat, säilyttäen merkityksen sanasta sanaan litteraatin kustannuksella — automatisoidut palvelut joko pudottavat kompastuneen lauseen tai renderöivät sen hölynpölynä. Hän merkitsi puhujien vaihdot nimietuliitteellä jokaisen puhujanvaihdoksen kohdalla — automaattipalvelut lomittavat ilman attribuointia. Hän lisäsi selventävän huomion hakasulkeissa, kun puhuja viittasi diaan, jota tekstityksiä seurannut yleisö ei nähnyt. Mikään näistä liikkeistä ei näy WER-pisteytyksissä, mutta jokainen on osa sitä, miksi ammattimaisella CART-tekstityksellä varustettu kokous tuntuu saavutettavalta tavalla, jota automatisoitu kokouksen harvoin tekee.
Vertailu kontekstissa
Päätutkimus ei ole se, että yksi palvelu voitti. Se on, että ero parhaan ja heikoiman välillä on tarpeeksi leveä, jotta alustan valinta on itsessään saavutettavuuspäätös. Organisaatio, joka valitsi oletuksena Webexin, koska se oli jo hankintapinossa, tuottaa litteraatin, jossa on yli kaksi kertaa enemmän virheitä kuin organisaatiolle, joka valitsi oletuksena Otterin — samalla puhujalle, samalle käsikirjoitukselle, samalle äänelle. Se ei ole marginaalinen ero.
Toinen löydös on, että automatisoitu tekstitys ei ole vielä korvike ihmis-CART-kirjoittajalle olosuhteissa, joissa tarkkuudella todella on merkitystä: oikeudenkäynnit, lääkärikonsultaatiot, hallituskokoukset, luokkahuoneopetus. 3,1 % / 6,2 %:n ero näyttää pieneltä numerotaulukolla ja tuntuu suurelta kuurolla osallistujalta, joka yrittää seurata nopeasti etenevää keskustelua. Kun panokset ovat kulun arvoisia, ihmis-CART-kirjoittaja on edelleen kultastandardi, ja SAS-LIVE-sertifiointikehys säilyttää nimenomaisesti tämän hierarkian.
Kolmas löydös on toiminnallinen. Mukautettu sanasto on eniten alikäytetty saavutettavuusvipu kokousoperaatioissa. Kolme kuudesta testaamastamme palvelusta hyväksyy etukäteen ladatun sanakirjan. Lähes yksikään organisaatioista, joiden kanssa puhuimme tämän vertailun suunnittelun aikana, ei käyttänyt tätä ominaisuutta, vaikka se olisi ollut saatavilla heidän jo maksamallaan tasolla. Kokouksen erisnienten ja tuotenimien lataaminen tekstityspaveluun ennen kokousta on viiden minuutin tehtävä, joka sulkee suurimman osan nimetyn kokonaisuuden aukosta.