Editorial · Expediente de referencia · Subtítulos en directo

Prueba comparativa de precisión en subtítulos en directo — seis servicios, un panel, una transcriptora CART profesional al fondo de la sala

Sometimos seis servicios de subtítulos en directo a tres sesiones de prueba de 60 minutos: Otter.ai, subtítulos de Google Meet, subtítulos de Zoom, subtítulos de Microsoft Teams, subtítulos de Cisco Webex y StreamText (con operador humano). Cada sesión seguía el mismo guión preparado: ocho ponentes con acentos mixtos (inglés americano, inglés británico, inglés de la India, inglés con acento búlgaro, inglés de Singapur, inglés con acento francés), diecisiete entidades con nombre propio, incluidos cinco nombres de producto deliberadamente inventados, dos pasajes de jerga técnica densa y tres minutos de intervenciones solapadas. Todas las sesiones fueron subtituladas simultáneamente por una transcriptora CART profesional a más de 220 ppm, cuya transcripción sirvió de estándar de referencia. La tasa de error de palabras (WER) compuesta osciló entre 3,1 % (CART humano) y 14,8 % (el servicio automatizado con peores resultados). La latencia mediana de extremo a extremo varió entre 0,9 s y 5,6 s. Dos servicios superaron el umbral de certificación SAS-LIVE en reconocimiento de jerga. La mayoría no lo hizo.

Hallazgos · Expediente LC-BENCH-2607 entradas · derivadas de 3 sesiones × 6 servicios + 1 control CART humano

Lo que revela la prueba comparativa

  1. 014,8×

    La diferencia entre el servicio automatizado más preciso y el menos preciso es de casi cinco veces la WER

    Otter.ai obtuvo una WER compuesta de aprox. 6,2 % a lo largo de las tres sesiones. Cisco Webex obtuvo aprox. 14,8 %. No es una diferencia marginal: es la diferencia entre una transcripción que una persona sorda puede seguir en tiempo real y una que requiere reconstrucción después de la reunión.

  2. 023,1 %

    Una transcriptora CART humana sigue superando con creces a todos los servicios automatizados

    La transcriptora CART de control (certificada RPR, 240 ppm sostenidos) obtuvo una WER compuesta de aprox. 3,1 %, aproximadamente la mitad del error del mejor servicio automatizado y una quinta parte del peor. La diferencia se amplía aún más en nombres propios y discurso solapado, donde la transcriptora humana parafrasea con elegancia y la máquina adivina.

  3. 030,9 s

    La latencia mediana entre el habla y el subtítulo en pantalla varió de menos de un segundo a casi seis

    Google Meet obtuvo la latencia mediana más baja con aprox. 0,9 s. Microsoft Teams se situó en aprox. 1,4 s. Webex en aprox. 2,7 s. StreamText (con operador humano) promedió aprox. 3,8 s. Los subtítulos en la nube de Zoom, en una región no estadounidense, alcanzaron aprox. 5,6 s, lo que supone un retraso suficiente para que una persona sorda que intenta formular una pregunta de aclaración ya lleve dos intervenciones de retraso.

  4. 0447 %

    Las entidades con nombre en clave se recuperaron correctamente menos de la mitad de las veces en los servicios automatizados

    De los cinco nombres de producto inventados para el guión (p. ej., «Halcyon», «Bramble», «Crosshatch»), los servicios automatizados en conjunto recuperaron la ortografía correcta en aprox. 47 % de las ocurrencias. La transcriptora CART humana los recuperó en el 96 % de las ocurrencias, porque la informamos con el glosario por adelantado. Tres de los seis servicios admiten vocabulario personalizado; los otros tres no.

  5. 052 de 6

    Solo dos de los seis servicios anuncian las actualizaciones de subtítulos a la tecnología de apoyo mediante una región ARIA live correcta

    El cliente web de Otter.ai y el panel de subtítulos de Google Meet exponen las actualizaciones mediante regiones aria-live=“polite” a las que un lector de pantalla puede suscribirse. Zoom, Teams, Webex y StreamText representan los subtítulos en nodos del DOM que no se anuncian, lo que significa que una persona sordociega con una línea braille no recibe señal de que ha aparecido texto nuevo.

  6. 065,4×

    Las intervenciones solapadas degradan la precisión más que el acento o la jerga

    Durante el pasaje de tres minutos con solapamiento guionizado, la WER automatizada media saltó de aprox. 7,9 % (línea base con un solo hablante) a aprox. 42,6 %, una degradación de 5,4×. La variación de acento por sí sola movió la WER 1,8×; la densidad de jerga, 2,1×. El solapamiento de dos hablantes es el fallo que ningún servicio automatizado comercial ha resuelto aún.

  7. 073

    Tres proveedores tienen la certificación SAS-LIVE; solo uno de ellos encabezó nuestro ranking de precisión

    SAS-LIVE (el Speech-Accessibility Standard for live captioning, ratificado en 2024) certifica a los proveedores frente a un umbral de WER publicado del 8 % en un corpus curado. Otter.ai, StreamText y una configuración de Microsoft Teams cuentan con la certificación en el momento de la redacción. Otter.ai encabezó nuestro ranking compuesto; StreamText quedó tercero; la configuración certificada de Teams, cuarta.

Fuente — Tres sesiones de prueba de 60 minutos grabadas del 4 al 6 de mayo de 2026 con ocho ponentes guionizados, guión idéntico en todas las sesiones, control simultáneo con CART humano. Audio enrutado mediante Loopback hacia la ruta de subtítulos nativa de cada plataforma. Transcripciones comparadas con el control CART mediante NIST sclite para calcular la WER.


Metodología y condiciones de prueba

Una prueba comparativa de subtítulos en directo se sostiene o cae según el control. Encargamos tres sesiones idénticas de 60 minutos en tres días distintos. Cada sesión seguía el mismo guión preparado: una introducción del moderador, cuatro turnos de intervención guionizados de aproximadamente siete minutos cada uno, dos pasajes de debate abierto con un total de once minutos, un pasaje guionizado de tres minutos con solapamiento de dos y ocasionalmente tres hablantes, y un cierre final.

Ocho panelistas remotos leyeron el guión. Se les instruyó sobre el ritmo, pero no sobre el propósito de la prueba. Acentos representados: inglés americano general (dos hablantes), pronunciación recibida británica (uno), inglés de la India (uno), inglés con acento búlgaro (uno), inglés de Singapur (uno), inglés con acento francés (uno), inglés escocés (uno). El guión incluía diecisiete entidades con nombre: doce reales (organismos de la ONU, citas de estatutos, nombres de producto del dominio público) y cinco nombres en clave ficticios inventados para este estudio.

Cada sesión fue subtitulada simultáneamente por los seis servicios. El audio se enrutó mediante un dispositivo agregado Loopback hacia la ruta de subtítulos nativa de cada plataforma; no se insertó ninguna capa de reconocimiento de voz de terceros. La transcriptora CART profesional participó en una línea oculta y su transcripción quedó marcada temporalmente respecto al mismo audio. La tasa de error de palabras se calculó con respecto a la transcripción CART utilizando NIST sclite con puntuación sin distinción de mayúsculas y minúsculas y pesos estándar de sustitución/inserción/eliminación.

01Cierre del guiónGuión idéntico de 60 minutos en las tres sesiones; los panelistas no fueron informados de qué se medía.
02Enrutamiento de audioEl dispositivo agregado Loopback alimentó simultáneamente la ruta de subtítulos nativa de cada plataforma.
03Control humanoTranscriptora CART certificada RPR unida de forma oculta, 240 ppm sostenidos, sirvió de estándar de referencia.
04PuntuaciónNIST sclite, sin distinción de mayúsculas/minúsculas, pesos estándar. Latencia medida por marca temporal de forma de onda a DOM.
3
sesiones de prueba
8
ponentes del panel
17
entidades con nombre
180
minutos totales de subtítulos por servicio

El ranking compuesto

La WER compuesta es la media no ponderada de la WER por sesión a lo largo de las tres sesiones, puntuada frente al control CART. El ranking principal, de menor a mayor WER:

01
Otter.ai (nivel Pro, vocabulario personalizado cargado)
Certificado SAS-LIVE · cliente web · aprox. 6,2 % WER compuesta
6,2 %
02
Subtítulos de Google Meet (workspace business)
No certificado SAS-LIVE · aprox. 7,9 % WER compuesta
7,9 %
03
StreamText (con operador, corrección humana)
Certificado SAS-LIVE · aprox. 8,4 % WER compuesta
8,4 %
04
Microsoft Teams (con vocabulario personalizado activado)
Configuración certificada SAS-LIVE · aprox. 9,6 % WER compuesta
9,6 %
05
Zoom (subtítulos en la nube, región no estadounidense)
No certificado SAS-LIVE · aprox. 11,7 % WER compuesta
11,7 %
06
Subtítulos de Cisco Webex (configuración predeterminada)
No certificado SAS-LIVE · aprox. 14,8 % WER compuesta
14,8 %
Tasa de error de palabras compuesta por servicio de subtítulos en directo a lo largo de tres sesiones de prueba de 60 minutosGráfico de barras horizontales de la tasa de error de palabras compuesta. De menor a mayor: control CART humano 3,1 % (línea base de referencia, mostrada a título informativo); Otter.ai 6,2 % (mejor automatizado, destacado); Google Meet 7,9 %; StreamText 8,4 %; Microsoft Teams 9,6 %; Zoom 11,7 %; Cisco Webex 14,8 % (peor automatizado, destacado). La diferencia entre el mejor y el peor servicio automatizado es de 4,8 veces.SAS-LIVE 8% floor0%5%10%15%CART humanoOtter.aiGoogle MeetStreamTextMS TeamsZoomCisco Webex3,1% (control)6,2%7,9%8,4%9,6%11,7%14,8%WER compuesta, tres sesiones de 60 min, NIST sclite frente al control CART humano
El ranking compuesto abarca una diferencia de 4,8× entre el mejor y el peor servicio automatizado, lo suficientemente amplia como para que la elección de plataforma sea en sí misma una decisión de accesibilidad y no un detalle de contratación. El control CART humano al 3,1 % (barra fantasma, parte superior) marca el estándar de referencia; las barras rojas señalan los mejores y peores servicios automatizados respecto al umbral de certificación SAS-LIVE del 8 %.

La elección entre dos plataformas de videoconferencia empresarial puede suponer la diferencia entre una tasa de error de palabras del 6 % y del 15 %. Eso no es una diferencia de herramientas. Es una diferencia de inclusión.


WER por condición de hablante

La WER compuesta oculta los matices. Para ver dónde falla cada servicio, partimos el audio en cuatro condiciones: inglés americano limpio con un solo hablante, hablante único con acento mixto, pasajes con alta densidad de jerga y solapamiento guionizado. Los mismos seis servicios con el mismo audio, desglosados por condición:

WER MEDIA POR CONDICIÓN DE HABLANTE — SERVICIOS AUTOMATIZADOS AGREGADOS
Inglés americano limpio
aprox. 4,1 %
Acento mixto
aprox. 7,4 %
Alta densidad de jerga
aprox. 8,6 %
Solapamiento (2–3 hablantes)
aprox. 42,6 %

El gráfico comprime el hallazgo principal en una sola imagen: la variación de acento supone una penalización real, la jerga es una penalización mayor y el discurso solapado es un precipicio. En el pasaje de solapamiento, el servicio automatizado con peor rendimiento cayó a una WER superior al 60 %, punto en el que la transcripción es, según la educada formulación del criterio SAS-LIVE, «no comunicativamente fiable».

4,1 %
WER en inglés americano limpio con un solo hablante, media automatizada
42,6 %
WER en solapamiento guionizado, media automatizada
10,4×
factor de degradación: de limpio a solapamiento
Por qué el solapamiento rompe todos los servicios automatizados

Las canalizaciones comerciales de reconocimiento de voz asumen un flujo acústico por hablante. Los sistemas modernos utilizan diarización para asignar fragmentos de audio a identificadores de hablante, pero la diarización se ejecuta después de la segmentación, y durante el solapamiento la propia segmentación falla. El resultado es un único canal de salida en el que se fusionan dos intervenciones, produciendo una transcripción que es gramaticalmente correcta pero factualmente errónea sobre quién dijo qué. Una transcriptora CART humana resuelve esto parafraseando a uno de los hablantes solapados y prefijando al otro con una etiqueta de nombre. Ningún servicio automatizado desplegado en 2026 hace esto.


Latencia en la red

La latencia se midió como el tiempo transcurrido entre el pico de la forma de onda de una sílaba hablada y la aparición del token correspondiente en el DOM de subtítulos de la plataforma, capturado mediante una grabación de pantalla de alta frecuencia de cuadros alineada con la forma de onda del audio. Latencia mediana a lo largo de las tres sesiones:

LATENCIA MEDIANA DE EXTREMO A EXTREMO — MENOR ES MEJOR
Google Meet
aprox. 0,9 s
Microsoft Teams
aprox. 1,4 s
Otter.ai
aprox. 1,9 s
Webex
aprox. 2,7 s
StreamText
aprox. 3,8 s
Zoom (región no estadounidense)
aprox. 5,6 s

La latencia importa porque la reparación conversacional tiene una ventana. La literatura de estudios sobre sordos en subtitulación en tiempo real converge en un techo usable de aproximadamente dos segundos: más allá de ese punto, una persona sorda no puede formular una pregunta de aclaración mientras sigue siendo pertinente. Según ese criterio, Google Meet, Teams y Otter superan el umbral; Webex se sitúa en el límite; StreamText y Zoom no lo hacen.

La mayor latencia de StreamText es en parte arquitectónica —está dirigido por un operador, por lo que hay una pulsación humana en el circuito— y en parte el precio de su menor WER en jerga. La latencia de Zoom en nuestra configuración es más difícil de justificar: en una región estadounidense con subtítulos en la nube activados, estudios comparativos publicados anteriormente han informado de medianas de menos de tres segundos, por lo que una mediana de 5,6 s en nuestras pruebas en región europea refleja la infraestructura regional, no el límite de la plataforma.


Nombres, jerga y el problema del glosario

De las diecisiete entidades con nombre en el guión, cinco eran nombres en clave inventados para esta prueba comparativa. Los cinco se eligieron para ser nombres de producto plausibles pero no presentes en ningún corpus público: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Los tres primeros son palabras inglesas comunes; los dos últimos son menos frecuentes. Se esperaba que incluso los mejores servicios automatizados tuvieran dificultades con los casos de vocabulario poco frecuente, y así fue.

01
Transcriptora CART humana (informada con el glosario)
96 % de recuperación correcta de entidades con nombre en clave
96 %
02
Otter.ai (vocabulario personalizado cargado)
71 % de recuperación correcta — el vocabulario personalizado marcó la diferencia
71 %
03
Microsoft Teams (vocabulario personalizado cargado)
59 % de recuperación correcta
59 %
04
StreamText (operador informado)
52 % de recuperación correcta — el operador no disponía del glosario de antemano
52 %
05
Google Meet (sin opción de vocabulario personalizado)
38 % de recuperación correcta
38 %
06
Zoom + Webex (sin opción de vocabulario personalizado)
aprox. 24 % de recuperación correcta agregado — adivinen homófonos fonéticos
24 %

La conclusión es operativa. El vocabulario personalizado es el mayor factor de mejora de la precisión que controla el organizador de una reunión. Los tres servicios que admiten un glosario precargado (Otter, Teams y las configuraciones en la nube respaldadas por Azure de Webex que no probamos) superan de forma consistente a los que no lo hacen. Cuando el público incluye personas sordas o con dificultades auditivas y la reunión implica jerga o nombres propios, la ausencia de un campo de vocabulario personalizado es una limitación de accesibilidad significativa, no una función de conveniencia que falta.

Una nota sobre la certificación SAS-LIVE

SAS-LIVE certifica a un proveedor de subtítulos frente a un corpus publicado y un umbral de WER publicado (8 % en el momento de la redacción). La certificación es significativa como umbral mínimo —significa que el proveedor ha demostrado que su sistema puede superar el 8 % en el audio de certificación— pero no es un techo. Nuestra prueba comparativa utilizó un corpus diferente (discurso de panel con acento mixto y solapamiento), y los servicios certificados oscilaron entre 6,2 % (Otter) y 9,6 % (Teams) con nuestro audio. Considérese la certificación SAS-LIVE como un filtro de contratación, no como un sustituto de las pruebas con el audio que produce la propia organización.


Integración con tecnología de apoyo

La WER mide si la transcripción es correcta. La integración con tecnología de apoyo mide si un usuario con lector de pantalla, línea braille o lupa de baja visión puede realmente consumir la transcripción en tiempo real. Ambas cosas no son lo mismo. Una transcripción perfectamente precisa representada en un nodo del DOM sin atributo aria-live es invisible para una persona sordociega con una línea braille, porque la tecnología de apoyo nunca recibe la señal de que ha aparecido texto nuevo.

Auditamos el panel de subtítulos de cada plataforma respecto a cuatro propiedades de integración con tecnología de apoyo: anuncio de región activa, exportación de la transcripción al finalizar la reunión, controles con foco activable y atajo de teclado para activar/desactivar los subtítulos. La matriz:

01
Cliente web de Otter.ai
Las cuatro: aria-live polite · exportación · activable · atajo de teclado
4 de 4
02
Google Meet
aria-live polite · sin exportación nativa · activable · atajo de teclado
3 de 4
03
Microsoft Teams
Sin aria-live · exportación disponible · activable · atajo de teclado
3 de 4
04
Inserción StreamText
Sin aria-live · exportación disponible · foco parcial · sin atajo de teclado
2 de 4
05
Cliente de escritorio Zoom
Sin aria-live · exportación disponible · foco parcial · atajo de teclado
2 de 4
06
Cisco Webex
Sin aria-live · exportación disponible · sin foco activable · sin atajo de teclado
1 de 4

La columna de integración con tecnología de apoyo reordena el ranking de forma interesante. Otter sigue en primer lugar; pero Teams, que quedó cuarto en WER, asciende a un empate en segundo lugar en integración con tecnología de apoyo. Webex se sitúa en el último lugar en ambos ejes. Una persona sordociega con una línea braille está mejor atendida por Otter o Google Meet en la generación actual de productos.


Lo que la transcriptora CART humana todavía hace mejor

La transcriptora CART de control superó a todos los servicios automatizados en todos los ejes medidos. WER del 3,1 % frente al mejor automatizado del 6,2 %. Recuperación de nombres en clave del 96 % frente al mejor automatizado del 71 %. WER en solapamiento de aproximadamente el 9 %, una cifra a la que ningún servicio automatizado se acercó ni en treinta puntos.

Pero la ventaja humana no es solo mecánica. Hay varios comportamientos editoriales que siguen siendo exclusivamente humanos. La transcriptora CART parafraseó a los hablantes que titubearon, preservando el significado a costa del literal estricto —los servicios automatizados o eliminan la frase titubeante o la interpretan como palabras sin sentido—. Etiquetó los turnos de hablante con un prefijo de nombre en cada cambio —los servicios automatizados intercalan sin atribución—. Insertó una nota aclaratoria entre corchetes cuando un hablante hacía referencia a una diapositiva que el público subtitulado no podía ver. Ninguno de estos movimientos aparece en una puntuación de WER, pero cada uno forma parte de por qué una reunión con subtítulos CART profesionales se siente accesible de una manera que raramente lo hace una automatizada.

Transcriptora CART, sesión informativa posterior
The hardest moment in a panel like this is not a thick accent or a technical term. It is two people speaking at once and a third coming in to laugh. I will paraphrase one, queue the other, and tag the laughter. The machine cannot decide which voice to drop, so it drops both into the same line. That line is then technically captioned and practically useless.
— Transcriptora CART, sesión informativa posterior a la sesión 02, 5 de mayo de 2026

La prueba comparativa en contexto

El hallazgo principal no es que un servicio ganara. Es que la diferencia entre el mejor y el peor es lo suficientemente amplia como para que la elección de plataforma sea en sí misma una decisión de accesibilidad. Una organización que optó por Webex porque ya estaba en la pila de contratación entregará una transcripción con más del doble de tasa de error que una organización que optó por Otter, con el mismo hablante, el mismo guión y el mismo audio. Eso no es una diferencia marginal.

El segundo hallazgo es que la subtitulación automatizada no es aún un sustituto de una transcriptora CART humana en condiciones donde la precisión realmente importa: procedimientos judiciales, consultas médicas, reuniones de consejo de administración, docencia en aula. La diferencia del 3,1 % / 6,2 % parece pequeña en un papel de números y se siente grande para una persona sorda que intenta seguir una conversación que avanza rápido. Cuando las consecuencias justifican el coste, una transcriptora CART humana sigue siendo el estándar de referencia, y el marco de certificación SAS-LIVE preserva explícitamente esa jerarquía.

El tercer hallazgo es operativo. El vocabulario personalizado es el factor de mejora de la accesibilidad más infrautilizado en las operaciones de reuniones. Tres de los seis servicios que probamos admiten un glosario precargado. Casi ninguna de las organizaciones con las que hablamos durante el diseño de esta prueba comparativa utilizaba esa función, incluso cuando estaba disponible en el nivel que ya habían contratado. Cargar los nombres propios y de producto de la reunión en el servicio de subtítulos antes de la reunión es una tarea de cinco minutos que cierra la mayor parte de la brecha en entidades con nombre.