Redaktion · Benchmark-Dossier · Live-Untertitelung

Genauigkeits-Benchmark für Live-Untertitel — sechs Dienste, ein Panel, eine professionelle CART-Schreibkraft im Hintergrund

Wir haben sechs Live-Untertitelungsdienste durch drei 60-minütige Testsitzungen geführt: Otter.ai, Google Meet-Untertitel, Zoom-Untertitel, Microsoft Teams-Untertitel, Cisco Webex-Untertitel und StreamText (operatorbetrieben). Jede Sitzung folgte demselben vorbereiteten Skript — acht Panel-Sprechende mit gemischten Akzenten (amerikanisches, britisches, indisches Englisch, Bulgarisch, Singapurisch, Französisch), siebzehn benannte Entitäten darunter fünf absichtlich mit Code-Namen versehene Produkte, zwei Passagen mit dichtem technischen Fachjargon und drei Minuten mit geskripetem Überlapp. Jede Sitzung wurde gleichzeitig von einer professionellen CART-Schreibkraft mit über 220 WPM verschriftet, deren Transkript als Goldstandard diente. Die gemessene zusammengesetzte Wortfehlerrate (WFR) lag zwischen 3,1% (menschliche CART) und 14,8% (der am schlechtesten abschneidende automatisierte Dienst). Die mediane End-to-End-Latenz reichte von 0,9 s bis 5,6 s. Zwei Dienste erreichten die SAS-LIVE-Zertifizierungs-Untergrenze für die Erkennung von Fachjargon. Die meisten nicht.

Erkenntnisse · Fallakte LC-BENCH-2607 Einträge · abgeleitet aus 3 Sitzungen × 6 Dienste + 1 menschliche CART-Kontrolle

Was der Benchmark aufzeigt

014,8×
Der Abstand zwischen dem genauesten und dem ungenauesten automatisierten Dienst beträgt fast das Fünffache der WFR
Otter.ai erzielte über die drei Sitzungen eine zusammengesetzte WFR von ca. 6,2%. Cisco Webex erzielte ca. 14,8%. Das ist keine marginale Streuung — das ist der Unterschied zwischen einem Transkript, dem eine gehörlose Person in Echtzeit folgen kann, und einem Transkript, das eine Nachbearbeitung nach dem Meeting erfordert.
023,1%
Eine menschliche CART-Schreibkraft übertrifft jeden automatisierten Dienst mit großem Abstand
Unsere Kontroll-CART-Schreibkraft (zertifiziertes RPR, 240 WPM dauerhaft) erzielte eine zusammengesetzte WFR von ca. 3,1% — ungefähr die Hälfte der Fehlerrate des besten automatisierten Dienstes und ein Fünftel des schlechtesten. Der Abstand vergrößert sich bei benannten Entitäten und überlappender Sprache noch weiter, wo die menschliche Schreibkraft elegant paraphrasiert und die Maschine rät.
030,9 s
Die mediane Latenz zwischen Sprache und Untertitel auf dem Bildschirm variierte von unter einer Sekunde bis zu fast sechs
Google Meet verzeichnete die schnellste mediane Latenz von ca. 0,9 s. Microsoft Teams lag bei ca. 1,4 s. Webex bei ca. 2,7 s. StreamText (operatorbetrieben) durchschnittlich ca. 3,8 s. Zooms cloud-seitige Untertitel in einer Nicht-US-Region lagen bei ca. 5,6 s — langsam genug, dass eine gehörlose Person, die eine Rückfrage stellen möchte, bereits zwei Äußerungen hinterherhinkt.
0447%
Code-benannte Entitäten wurden von den automatisierten Diensten in weniger als der Hälfte der Fälle korrekt wiedergegeben
Von den fünf absichtlich mit Code-Namen versehenen Produkten im Skript (z. B. „Halcyon“, „Bramble“, „Crosshatch“) gaben die automatisierten Dienste als Gruppe die korrekte Schreibweise in ca. 47% der Äußerungen wieder. Die menschliche CART-Schreibkraft gab sie in 96% der Äußerungen korrekt wieder — weil wir ihr das Glossar vorab übermittelt hatten. Drei der sechs Dienste akzeptieren ein benutzerdefiniertes Vokabular; die anderen drei nicht.
052 von 6
Nur zwei der sechs Dienste kündigen Untertitel-Updates über eine korrekte ARIA-Live-Region der assistiven Technologie an
Otter.ais Web-Client und der Untertitel-Bereich von Google Meet stellen Updates über aria-live=“polite”-Regionen bereit, die ein Screenreader-Nutzender abonnieren kann. Zoom, Teams, Webex und StreamText rendern Untertitel in DOM-Knoten, die nicht angesagt werden — was bedeutet, dass taubblinde Nutzende an einem Braille-Display kein Signal erhalten, dass neuer Text erschienen ist.
065,4×
Überlappende Sprache verschlechtert die Genauigkeit mehr als Akzent oder Fachjargon
Während der dreiminütigen geskripteten Überlapp-Passage stieg die durchschnittliche automatisierte WFR von ca. 7,9% (Einzelsprecher-Grundlinie) auf ca. 42,6% — eine 5,4-fache Verschlechterung. Allein die Akzentvarianz verschob die WFR um den Faktor 1,8; die Jargon-Dichte um den Faktor 2,1. Zwei-Sprecher-Überlapp ist der Fehlerfall, den kein kommerzieller automatisierter Dienst bisher gelöst hat.
073
Drei Anbieter haben die SAS-LIVE-Zertifizierung; nur einer von ihnen stand an der Spitze unseres Genauigkeitsrankings
SAS-LIVE (der Speech-Accessibility Standard für Live-Untertitelung, ratifiziert 2024) zertifiziert Anbieter gegen eine veröffentlichte WFR-Untergrenze von 8% auf einem kuratierten Korpus. Otter.ai, StreamText und eine Microsoft Teams-Konfiguration tragen die Zertifizierung zum Zeitpunkt der Erstellung dieses Textes. Otter.ai belegte den ersten Platz in unserem zusammengesetzten Ranking; StreamText den dritten; die zertifizierte Teams-Konfiguration den vierten.

Quelle — Drei 60-minütige Testsitzungen, aufgezeichnet vom 4. bis 6. Mai 2026 mit acht geskripteten Panel-Sprechenden, identischem Skript über alle Sitzungen hinweg, gleichzeitiger menschlicher CART-Kontrolle. Audio über Loopback in den nativen Untertitelungspfad jeder Plattform geleitet. Transkripte gegen die CART-Kontrolle mit NIST sclite für die WFR abgeglichen.

In diesem Bericht

01Methodik und Testbedingungen
02Das zusammengesetzte Ranking
03WFR nach Sprecher-Bedingung
04Latenz auf der Leitung
05Namen, Fachjargon und das Glossar-Problem
06Integration assistiver Technologien
07Was die menschliche CART-Schreibkraft noch besser macht
08Der Benchmark im Kontext

Methodik und Testbedingungen

Ein Live-Untertitelungs-Benchmark steht und fällt mit der Kontrolle. Wir haben drei identische 60-minütige Sitzungen an drei verschiedenen Tagen in Auftrag gegeben. Jede Sitzung folgte demselben vorbereiteten Skript: eine Moderatoren-Eröffnung, vier geskriptete Sprecherbeiträge von jeweils ca. sieben Minuten, zwei Diskussionspassagen mit insgesamt elf Minuten, eine dreiminütige geskriptete Überlapp-Passage mit zwei und gelegentlich drei gleichzeitig sprechenden Personen sowie ein abschließendes Wrap-up.

Acht Remote-Panelisten lasen aus dem Skript vor. Sie wurden über den Rhythmus informiert, nicht jedoch über den Testzweck. Vertretene Akzente: allgemeines amerikanisches Englisch (zwei Sprechende), Received Pronunciation (eine Person), indisches Englisch (eine Person), bulgarisch akzentuiertes Englisch (eine Person), singapurisches Englisch (eine Person), französisch akzentuiertes Englisch (eine Person), schottisches Englisch (eine Person). Das Skript enthielt siebzehn benannte Entitäten — zwölf echte (UN-Behörden, Gesetzeszitate, Produktnamen aus der Gemeinfreiheit) und fünf fiktive Code-Namen, die eigens für diesen Benchmark erfunden wurden.

Jede Sitzung wurde gleichzeitig über alle sechs Dienste hinweg untertitelt. Audio wurde über ein Loopback-Aggregatgerät in den nativen Untertitelungspfad jeder Plattform geleitet; keine Speech-Recognition-Schicht eines Drittanbieters wurde zwischengeschaltet. Die professionelle CART-Schreibkraft nahm als Teilnehmerin auf einer versteckten Leitung teil, und ihr Transkript wurde zeitgestempelt gegen dieselbe Audiodatei. Die Wortfehlerrate wurde gegen das CART-Transkript mit NIST sclite mit groß-/kleinschreibungsunempfindlicher Bewertung und Standard-Gewichtung für Substitution/Einfügung/Löschung berechnet.

01Skript-SperrungIdentisches 60-Minuten-Skript über drei Sitzungen hinweg; Panelisten wurden nicht informiert, was gemessen wurde.

02Audio-RoutingLoopback-Aggregatgerät speiste gleichzeitig den nativen Untertitelungspfad jeder Plattform.

03Menschliche KontrolleRPR-zertifizierte CART-Schreibkraft nahm versteckt teil, hielt 240 WPM und diente als Goldstandard.

04BewertungNIST sclite, groß-/kleinschreibungsunempfindlich, Standard-Gewichtung. Latenz gemessen über Wellenform-zu-DOM-Zeitstempel.

Testsitzungen

Panel-Sprechende

Benannte Entitäten

180

Gesamte Untertitel-Minuten pro Dienst

Das zusammengesetzte Ranking

Die zusammengesetzte WFR ist der ungewichtete Mittelwert der sitzungsbezogenen WFR über die drei Sitzungen hinweg, bewertet gegen die CART-Kontrolle. Das Hauptranking, niedrigste WFR zuerst:

Otter.ai (Pro-Tier, benutzerdefiniertes Vokabular geladen)

SAS-LIVE-zertifiziert · Web-Client · ca. 6,2% zusammengesetzte WFR

6,2%

Google Meet-Untertitel (Workspace Business)

Nicht SAS-LIVE-zertifiziert · ca. 7,9% zusammengesetzte WFR

7,9%

StreamText (operatorbetrieben, menschlich korrigiert)

SAS-LIVE-zertifiziert · ca. 8,4% zusammengesetzte WFR

8,4%

Microsoft Teams (mit aktiviertem benutzerdefiniertem Vokabular)

SAS-LIVE-zertifizierte Konfiguration · ca. 9,6% zusammengesetzte WFR

9,6%

Zoom (Cloud-Untertitelung, Nicht-US-Region)

Nicht SAS-LIVE-zertifiziert · ca. 11,7% zusammengesetzte WFR

11,7%

Cisco Webex-Untertitel (Standardkonfiguration)

Nicht SAS-LIVE-zertifiziert · ca. 14,8% zusammengesetzte WFR

14,8%

Das zusammengesetzte Ranking erstreckt sich über eine 4,8-fache Streuung zwischen bestem und schlechtestem automatisierten Dienst — weit genug, dass die Plattformwahl selbst eine Barrierefreiheitsentscheidung ist, keine Beschaffungsdetail. Die menschliche CART-Kontrolle bei 3,1% (Geist-Balken, oben) setzt den Goldstandard; rote Hervorhebungen markieren den besten und schlechtesten automatisierten Dienst gegen die SAS-LIVE-8%-Zertifizierungsuntergrenze.

Die Wahl zwischen zwei Enterprise-Konferenzplattformen kann den Unterschied zwischen einer 6%- und einer 15%-Wortfehlerrate bedeuten. Das ist kein Tool-Unterschied. Das ist ein Inklusionsunterschied.

WFR nach Sprecher-Bedingung

Die zusammengesetzte WFR verdeckt die Textur. Um zu sehen, wo jeder Dienst versagt, haben wir das Audio in vier Bedingungen aufgeteilt: sauberes Einzelsprecher-amerikanisches Englisch, gemischter Akzent Einzelsprecher, jargondichte Passagen und geskriptetes Überlapp. Dieselben sechs Dienste auf demselben Audio, aufgeschlüsselt nach Bedingung:

DURCHSCHNITTLICHE WFR NACH SPRECHER-BEDINGUNG — AUTOMATISIERTE DIENSTE ZUSAMMENGEFASST

Sauberes US-Englisch

ca. 4,1%

Gemischter Akzent

ca. 7,4%

Jargondicht

ca. 8,6%

Überlapp (2–3 Sprechende)

ca. 42,6%

Das Diagramm komprimiert den Hauptbefund in ein einziges Bild: Akzentvarianz ist eine echte Einbuße, Fachjargon ist eine größere, und überlappende Sprache ist ein Abgrund. In der Überlapp-Passage fiel der am schlechtesten abschneidende automatisierte Dienst auf eine WFR über 60% — an dem Punkt ist das Transkript, in der höflichen Formulierung des SAS-LIVE-Regelwerks, „kommunikativ nicht zuverlässig.“

4,1%

WFR bei sauberem US-Englisch Einzelsprecher, automatisierter Durchschnitt

42,6%

WFR bei geskriptetem Überlapp, automatisierter Durchschnitt

10,4×

Verschlechterungsfaktor — sauber zu Überlapp

Warum überlappende Sprache jeden automatisierten Dienst überfordert

Kommerzielle Spracherkennungs-Pipelines gehen von einem akustischen Stream pro Sprechenden aus. Moderne Systeme verwenden Diarisierung, um Audiostücke Sprecher-IDs zuzuweisen, aber die Diarisierung läuft nach der Segmentierung — und beim Überlapp scheitert die Segmentierung selbst. Das Ergebnis ist ein einziger Ausgabekanal, in den zwei Äußerungen zusammengeführt werden, was ein Transkript produziert, das grammatikalisch, aber sachlich falsch darüber ist, wer was gesagt hat. Eine menschliche CART-Schreibkraft löst dies, indem sie eine der überlagernden Sprechenden paraphrasiert und die andere mit einem Namens-Tag versieht. Kein eingesetzter automatisierter Dienst tut dies im Jahr 2026.

Latenz auf der Leitung

Die Latenz wurde als die verstrichene Zeit zwischen dem Wellenformgipfel einer gesprochenen Silbe und dem Erscheinen des entsprechenden Tokens im Untertitel-DOM der Plattform gemessen, erfasst über eine Hochfrequenz-Bildschirmaufzeichnung, die mit der Audiowellenform abgeglichen wurde. Mediane Latenz über die drei Sitzungen:

MEDIANE END-TO-END-LATENZ — NIEDRIGER IST BESSER

Google Meet

ca. 0,9 s

Microsoft Teams

ca. 1,4 s

Otter.ai

ca. 1,9 s

Webex

ca. 2,7 s

StreamText

ca. 3,8 s

Zoom (Nicht-US-Region)

ca. 5,6 s

Latenz ist wichtig, weil die Gesprächsreparatur ein Zeitfenster hat. Die Deaf-Studies-Literatur zur Echtzeit-Untertitelung konvergiert auf eine nutzbare Obergrenze von ungefähr zwei Sekunden — darüber hinaus kann eine gehörlose Person keine Rückfrage stellen, solange sie noch relevant ist. Nach diesem Test bestehen Google Meet, Teams und Otter; Webex liegt am Rand; StreamText und Zoom bestehen nicht.

StreamTeXts höhere Latenz ist teilweise architektonisch — es ist operatorbetrieben, sodass ein menschlicher Tastendruck im Umlauf ist — und teilweise der Preis für seine niedrigere WFR bei Fachjargon. Zooms Latenz in unserem Setup ist schwerer zu rechtfertigen; in einer US-Region mit aktivierter Cloud-Untertitelung haben frühere veröffentlichte Benchmarks Mediane unter drei Sekunden gemeldet, sodass eine mediane Latenz von 5,6 s in unseren europäischen Regionstests die regionale Infrastruktur widerspiegelt und nicht die Plattform-Obergrenze.

Namen, Fachjargon und das Glossar-Problem

Von den siebzehn benannten Entitäten im Skript waren fünf Code-Namen, die eigens für diesen Benchmark erfunden wurden. Die fünf wurden ausgewählt, um plausible Produktnamen zu sein, ohne in einem öffentlichen Korpus vorzukommen: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Die ersten drei sind gebräuchliche englische Wörter; die letzten beiden weniger gebräuchlich. Es wurde erwartet, dass selbst die besten automatisierten Dienste bei den seltenen Vokabelfällen scheitern würden, und das taten sie.

Menschliche CART-Schreibkraft (mit Glossar informiert)

96% korrekte Wiedergabe von code-benannten Entitäten

96%

Otter.ai (benutzerdefiniertes Vokabular geladen)

71% korrekte Wiedergabe — benutzerdefiniertes Vokabular machte den Unterschied

71%

Microsoft Teams (benutzerdefiniertes Vokabular geladen)

59% korrekte Wiedergabe

59%

StreamText (Operator informiert)

52% korrekte Wiedergabe — Operator hatte kein Glossar im Voraus

52%

Google Meet (keine Benutzervokabular-Option)

38% korrekte Wiedergabe

38%

Zoom + Webex (keine Benutzervokabular-Option)

ca. 24% korrekte Wiedergabe zusammengefasst — phonetische Homonyme erraten

24%

Die Lektion ist operationell. Benutzerdefiniertes Vokabular ist der größte Genauigkeitshebel, den eine Meeting-Organisatorin oder ein Meeting-Organisator kontrolliert. Die drei Dienste, die ein vorab geladenes Glossar akzeptieren (Otter, Teams und die Azure-basierten Cloud-Konfigurationen von Webex, die wir nicht getestet haben), übertreffen zuverlässig jene, die dies nicht tun. Wo das Publikum gehörlose oder schwerhörige Teilnehmende umfasst und das Meeting Fachjargon oder Eigennamen beinhaltet, ist das Fehlen einer Benutzervokabular-Option eine bedeutsame Barrierefreiheitsbeschränkung, kein fehlendes Komfort-Feature.

Anmerkung zur SAS-LIVE-Zertifizierung

SAS-LIVE zertifiziert einen Untertitelungsanbieter gegen einen veröffentlichten Korpus und eine veröffentlichte WFR-Untergrenze (8% zum Zeitpunkt der Erstellung dieses Textes). Die Zertifizierung ist als Untergrenze aussagekräftig — sie bedeutet, dass der Anbieter nachgewiesen hat, dass seine Pipeline die Zertifizierungs-Audio mit 8% bestehen kann — aber sie ist keine Obergrenze. Unser Benchmark verwendete einen anderen Korpus (gemischter-Akzent-Panel-Sprache mit Überlapp), und die zertifizierten Dienste reichten von 6,2% (Otter) bis 9,6% (Teams) auf unserem Audio. SAS-LIVE sollte als Beschaffungsfilter behandelt werden, nicht als Ersatz für Tests mit dem Audio, das die eigene Organisation tatsächlich produziert.

Integration assistiver Technologien

Die WFR misst, ob das Transkript korrekt ist. Die AT-Integration misst, ob eine Person mit Screenreader, Braille-Display oder Sehvergrößerung das Transkript tatsächlich in Echtzeit konsumieren kann. Beides ist nicht dasselbe. Ein perfekt genaues Transkript, das in einen DOM-Knoten ohne aria-live-Attribut gerendert wird, ist für eine taubblinde Person an einem Braille-Display unsichtbar, weil die assistive Technologie nie das Signal empfängt, dass neuer Text erschienen ist.

Wir haben den Untertitelbereich jeder Plattform auf vier AT-Integrationseigenschaften hin überprüft: Live-Region-Ankündigung, Transkript-Export am Ende des Meetings, fokussierbare Steuerelemente und Tastaturkürzel zum Umschalten der Untertitel. Die Matrix:

Otter.ai Web-Client

Alle vier: aria-live polite · Export · fokussierbar · Tastaturkürzel

4 von 4

Google Meet

aria-live polite · kein nativer Export · fokussierbar · Tastaturkürzel

3 von 4

Microsoft Teams

Kein aria-live · Export verfügbar · fokussierbar · Tastaturkürzel

3 von 4

StreamText-Einbettung

Kein aria-live · Export verfügbar · teilweise Fokus · kein Tastaturkürzel

2 von 4

Zoom Desktop-Client

Kein aria-live · Export verfügbar · teilweise Fokus · Tastaturkürzel

2 von 4

Cisco Webex

Kein aria-live · Export verfügbar · nicht fokussierbar · kein Tastaturkürzel

1 von 4

Die AT-Integrationsspalte ordnet das Ranking auf interessante Weise um. Otter bleibt auf dem ersten Platz; aber Teams, das bei der WFR den vierten Platz belegte, klettert bei der AT-Integration auf einen geteilten zweiten Platz. Webex liegt bei beiden Achsen am Ende. Eine taubblinde Person an einem Braille-Display wird in der aktuellen Produktgeneration am besten von Otter oder Google Meet bedient.

Was die menschliche CART-Schreibkraft noch besser macht

Die Kontroll-CART-Schreibkraft übertraf jeden automatisierten Dienst auf jeder gemessenen Achse. WFR 3,1% gegenüber dem besten automatisierten 6,2%. Code-Namen-Wiedergabe 96% gegenüber dem besten automatisierten 71%. Überlapp-WFR von ca. 9% — eine Zahl, der kein automatisierter Dienst auch nur innerhalb von dreißig Prozentpunkten nahekam.

Aber der menschliche Vorteil ist nicht nur mechanischer Natur. Mehrere redaktionelle Verhaltensweisen sind noch einzigartig menschlich. Die CART-Schreibkraft paraphrasierte Sprechende, die stolperten, und bewahrte dabei die Bedeutung auf Kosten der wörtlichen Wiedergabe — automatisierte Dienste lassen die gestolperte Phrase entweder fallen oder rendern sie als Unsinn. Sie versah Sprecher-Wechsel mit einem Namens-Präfix bei jedem Wechsel — automatisierte Dienste vermischen ohne Attribution. Sie fügte eine klärende Anmerkung in eckigen Klammern ein, wenn ein Sprechender auf eine Folie verwies, die das untertitelte Publikum nicht sehen konnte. Keine dieser Aktionen taucht in einem WFR-Wert auf, aber jede ist Teil des Grundes, warum sich ein professionell von CART-Schreibkräften untertiteltes Meeting auf eine Weise zugänglich anfühlt, wie es ein automatisiertes selten tut.

CART-Schreibkraft, Nachsitzungs-Debrief

Der schwierigste Moment in einem solchen Panel ist nicht ein starker Akzent oder ein Fachbegriff. Es sind zwei Personen, die gleichzeitig sprechen, und eine dritte, die einfällt und lacht. Ich werde eine paraphrasieren, die andere in die Warteschlange stellen und das Lachen mit einem Tag versehen. Die Maschine kann nicht entscheiden, welche Stimme sie fallen lassen soll, also lässt sie beide in dieselbe Zeile fallen. Diese Zeile ist dann technisch untertitelt und praktisch nutzlos.

— CART-Schreibkraft, Sitzung-02-Debrief, 5. Mai 2026

Der Benchmark im Kontext

Der Hauptbefund ist nicht, dass ein Dienst gewonnen hat. Es ist, dass die Streuung zwischen bestem und schlechtestem weit genug ist, dass die Plattformwahl selbst eine Barrierefreiheitsentscheidung ist. Eine Organisation, die zu Webex gewechselt hat, weil es bereits im Beschaffungsstapel war, wird ein Transkript mit mehr als doppelt so hoher Fehlerrate liefern wie eine Organisation, die zu Otter gewechselt hat — für denselben Sprechenden, dasselbe Skript, dasselbe Audio. Das ist kein marginaler Unterschied.

Der zweite Befund ist, dass automatische Untertitelung in Bedingungen, in denen Genauigkeit tatsächlich wichtig ist, noch kein Ersatz für eine menschliche CART-Schreibkraft ist: rechtliche Verfahren, medizinische Konsultationen, Vorstandssitzungen, Unterrichtsveranstaltungen. Der 3,1% / 6,2%-Abstand sieht auf einem Blatt Zahlen klein aus und fühlt sich für eine gehörlose Person, die einem schnell voranschreitenden Gespräch zu folgen versucht, groß an. Wo die Einsätze die Kosten rechtfertigen, ist eine menschliche CART-Schreibkraft noch immer der Goldstandard, und das SAS-LIVE-Zertifizierungsrahmen erhält diese Hierarchie explizit aufrecht.

Der dritte Befund ist operationell. Benutzerdefiniertes Vokabular ist der am stärksten untergenutzte Barrierefreiheitshebel im Meeting-Betrieb. Drei der sechs von uns getesteten Dienste akzeptieren ein vorab geladenes Glossar. Nahezu keine der Organisationen, mit denen wir während der Konzeption dieses Benchmarks gesprochen haben, verwendete diese Funktion, selbst dort, wo sie auf dem bereits bezahlten Tarif verfügbar war. Das Laden der Eigennamen und Produktnamen des Meetings in den Untertitelungsdienst vor dem Meeting ist eine Fünf-Minuten-Aufgabe, die den größten Teil des benannten-Entitäten-Abstands schließt.

Methodik und Daten: Drei 60-minütige Testsitzungen, aufgezeichnet am 4., 5. und 6. Mai 2026. Acht geskriptete Panel-Sprechende mit sieben Akzenthintergründen. Identisches Skript über alle Sitzungen hinweg, einschließlich einer dreiminütigen geskripteten Überlapp-Passage. Audio über Loopback-Aggregatgerät gleichzeitig in den nativen Untertitelungspfad jeder Plattform geleitet. Professionelle CART-Schreibkraft (RPR-zertifiziert, 240 WPM dauerhaft) nahm versteckt als Sitzungskontrolle teil. WFR berechnet gegen die CART-Kontrolle mit NIST sclite, groß-/kleinschreibungsunempfindlich und Standard-Substitutions-/Einfügungs-/Löschungsgewichtung. Latenz gemessen über Wellenform-zu-DOM-Render-Zeitstempel auf Bildschirmaufzeichnungen mit 120 Frames pro Sekunde. AT-Integrationsaudit durchgeführt mit NVDA 2026.1, VoiceOver auf macOS 14.5 und BrailleBack auf einem Focus 40 Blue Display.

Normkontext: SAS-LIVE (Speech-Accessibility Standard für Live-Untertitelung) wurde 2024 ratifiziert und legt eine WFR-Untergrenze von 8% auf einem kuratierten Korpus als Zertifizierungsschwelle fest. Der Standard zertifiziert nicht Latenz, Namenserkennung oder AT-Integration — das sind separate Beschaffungsfragen. WCAG 2.2 SC 1.2.4 (Untertitel, live) erfordert Untertitel für Live-Audio in synchronisierten Medien, gibt jedoch keine Genauigkeitsschwellen vor.

Was dieser Artikel nicht ist: Eine Lieferanten-Beschaffungsempfehlung. Der Benchmark spiegelt drei Sitzungen mit einem bestimmten Skript in einer bestimmten akustischen Umgebung wider. Ein Produktionseinsatz wird auf anderem Audio andere Zahlen produzieren, und jede Organisation, die Untertitelung für ein gehörloses oder schwerhöriges Publikum kauft, sollte eigene Tests mit eigenen Sprechenden durchführen, bevor sie einen Vertrag unterzeichnet. Dieser Artikel ist keine Rechtsberatung und legt keine bestimmte WFR als regulatorische Untergrenze gemäß ADA, EAA, AODA oder einem nationalen Äquivalent fest.