Prueba comparativa de precisión en subtítulos en directo — seis servicios, un panel, una transcriptora CART profesional al fondo de la sala
Sometimos seis servicios de subtítulos en directo a tres sesiones de prueba de 60 minutos: Otter.ai, subtítulos de Google Meet, subtítulos de Zoom, subtítulos de Microsoft Teams, subtítulos de Cisco Webex y StreamText (con operador humano). Cada sesión seguía el mismo guión preparado: ocho ponentes con acentos mixtos (inglés americano, inglés británico, inglés de la India, inglés con acento búlgaro, inglés de Singapur, inglés con acento francés), diecisiete entidades con nombre propio, incluidos cinco nombres de producto deliberadamente inventados, dos pasajes de jerga técnica densa y tres minutos de intervenciones solapadas. Todas las sesiones fueron subtituladas simultáneamente por una transcriptora CART profesional a más de 220 ppm, cuya transcripción sirvió de estándar de referencia. La tasa de error de palabras (WER) compuesta osciló entre 3,1 % (CART humano) y 14,8 % (el servicio automatizado con peores resultados). La latencia mediana de extremo a extremo varió entre 0,9 s y 5,6 s. Dos servicios superaron el umbral de certificación SAS-LIVE en reconocimiento de jerga. La mayoría no lo hizo.
Lo que revela la prueba comparativa
- 014,8×
La diferencia entre el servicio automatizado más preciso y el menos preciso es de casi cinco veces la WER
Otter.ai obtuvo una WER compuesta de aprox. 6,2 % a lo largo de las tres sesiones. Cisco Webex obtuvo aprox. 14,8 %. No es una diferencia marginal: es la diferencia entre una transcripción que una persona sorda puede seguir en tiempo real y una que requiere reconstrucción después de la reunión.
- 023,1 %
Una transcriptora CART humana sigue superando con creces a todos los servicios automatizados
La transcriptora CART de control (certificada RPR, 240 ppm sostenidos) obtuvo una WER compuesta de aprox. 3,1 %, aproximadamente la mitad del error del mejor servicio automatizado y una quinta parte del peor. La diferencia se amplía aún más en nombres propios y discurso solapado, donde la transcriptora humana parafrasea con elegancia y la máquina adivina.
- 030,9 s
La latencia mediana entre el habla y el subtítulo en pantalla varió de menos de un segundo a casi seis
Google Meet obtuvo la latencia mediana más baja con aprox. 0,9 s. Microsoft Teams se situó en aprox. 1,4 s. Webex en aprox. 2,7 s. StreamText (con operador humano) promedió aprox. 3,8 s. Los subtítulos en la nube de Zoom, en una región no estadounidense, alcanzaron aprox. 5,6 s, lo que supone un retraso suficiente para que una persona sorda que intenta formular una pregunta de aclaración ya lleve dos intervenciones de retraso.
- 0447 %
Las entidades con nombre en clave se recuperaron correctamente menos de la mitad de las veces en los servicios automatizados
De los cinco nombres de producto inventados para el guión (p. ej., «Halcyon», «Bramble», «Crosshatch»), los servicios automatizados en conjunto recuperaron la ortografía correcta en aprox. 47 % de las ocurrencias. La transcriptora CART humana los recuperó en el 96 % de las ocurrencias, porque la informamos con el glosario por adelantado. Tres de los seis servicios admiten vocabulario personalizado; los otros tres no.
- 052 de 6
Solo dos de los seis servicios anuncian las actualizaciones de subtítulos a la tecnología de apoyo mediante una región ARIA live correcta
El cliente web de Otter.ai y el panel de subtítulos de Google Meet exponen las actualizaciones mediante regiones
aria-live=“polite”a las que un lector de pantalla puede suscribirse. Zoom, Teams, Webex y StreamText representan los subtítulos en nodos del DOM que no se anuncian, lo que significa que una persona sordociega con una línea braille no recibe señal de que ha aparecido texto nuevo. - 065,4×
Las intervenciones solapadas degradan la precisión más que el acento o la jerga
Durante el pasaje de tres minutos con solapamiento guionizado, la WER automatizada media saltó de aprox. 7,9 % (línea base con un solo hablante) a aprox. 42,6 %, una degradación de 5,4×. La variación de acento por sí sola movió la WER 1,8×; la densidad de jerga, 2,1×. El solapamiento de dos hablantes es el fallo que ningún servicio automatizado comercial ha resuelto aún.
- 073
Tres proveedores tienen la certificación SAS-LIVE; solo uno de ellos encabezó nuestro ranking de precisión
SAS-LIVE (el Speech-Accessibility Standard for live captioning, ratificado en 2024) certifica a los proveedores frente a un umbral de WER publicado del 8 % en un corpus curado. Otter.ai, StreamText y una configuración de Microsoft Teams cuentan con la certificación en el momento de la redacción. Otter.ai encabezó nuestro ranking compuesto; StreamText quedó tercero; la configuración certificada de Teams, cuarta.
Fuente — Tres sesiones de prueba de 60 minutos grabadas del 4 al 6 de mayo de 2026 con ocho ponentes guionizados, guión idéntico en todas las sesiones, control simultáneo con CART humano. Audio enrutado mediante Loopback hacia la ruta de subtítulos nativa de cada plataforma. Transcripciones comparadas con el control CART mediante NIST sclite para calcular la WER.
Metodología y condiciones de prueba
Una prueba comparativa de subtítulos en directo se sostiene o cae según el control. Encargamos tres sesiones idénticas de 60 minutos en tres días distintos. Cada sesión seguía el mismo guión preparado: una introducción del moderador, cuatro turnos de intervención guionizados de aproximadamente siete minutos cada uno, dos pasajes de debate abierto con un total de once minutos, un pasaje guionizado de tres minutos con solapamiento de dos y ocasionalmente tres hablantes, y un cierre final.
Ocho panelistas remotos leyeron el guión. Se les instruyó sobre el ritmo, pero no sobre el propósito de la prueba. Acentos representados: inglés americano general (dos hablantes), pronunciación recibida británica (uno), inglés de la India (uno), inglés con acento búlgaro (uno), inglés de Singapur (uno), inglés con acento francés (uno), inglés escocés (uno). El guión incluía diecisiete entidades con nombre: doce reales (organismos de la ONU, citas de estatutos, nombres de producto del dominio público) y cinco nombres en clave ficticios inventados para este estudio.
Cada sesión fue subtitulada simultáneamente por los seis servicios. El audio se enrutó mediante un dispositivo agregado Loopback hacia la ruta de subtítulos nativa de cada plataforma; no se insertó ninguna capa de reconocimiento de voz de terceros. La transcriptora CART profesional participó en una línea oculta y su transcripción quedó marcada temporalmente respecto al mismo audio. La tasa de error de palabras se calculó con respecto a la transcripción CART utilizando NIST sclite con puntuación sin distinción de mayúsculas y minúsculas y pesos estándar de sustitución/inserción/eliminación.
El ranking compuesto
La WER compuesta es la media no ponderada de la WER por sesión a lo largo de las tres sesiones, puntuada frente al control CART. El ranking principal, de menor a mayor WER:
La elección entre dos plataformas de videoconferencia empresarial puede suponer la diferencia entre una tasa de error de palabras del 6 % y del 15 %. Eso no es una diferencia de herramientas. Es una diferencia de inclusión.
WER por condición de hablante
La WER compuesta oculta los matices. Para ver dónde falla cada servicio, partimos el audio en cuatro condiciones: inglés americano limpio con un solo hablante, hablante único con acento mixto, pasajes con alta densidad de jerga y solapamiento guionizado. Los mismos seis servicios con el mismo audio, desglosados por condición:
El gráfico comprime el hallazgo principal en una sola imagen: la variación de acento supone una penalización real, la jerga es una penalización mayor y el discurso solapado es un precipicio. En el pasaje de solapamiento, el servicio automatizado con peor rendimiento cayó a una WER superior al 60 %, punto en el que la transcripción es, según la educada formulación del criterio SAS-LIVE, «no comunicativamente fiable».
Las canalizaciones comerciales de reconocimiento de voz asumen un flujo acústico por hablante. Los sistemas modernos utilizan diarización para asignar fragmentos de audio a identificadores de hablante, pero la diarización se ejecuta después de la segmentación, y durante el solapamiento la propia segmentación falla. El resultado es un único canal de salida en el que se fusionan dos intervenciones, produciendo una transcripción que es gramaticalmente correcta pero factualmente errónea sobre quién dijo qué. Una transcriptora CART humana resuelve esto parafraseando a uno de los hablantes solapados y prefijando al otro con una etiqueta de nombre. Ningún servicio automatizado desplegado en 2026 hace esto.
Latencia en la red
La latencia se midió como el tiempo transcurrido entre el pico de la forma de onda de una sílaba hablada y la aparición del token correspondiente en el DOM de subtítulos de la plataforma, capturado mediante una grabación de pantalla de alta frecuencia de cuadros alineada con la forma de onda del audio. Latencia mediana a lo largo de las tres sesiones:
La latencia importa porque la reparación conversacional tiene una ventana. La literatura de estudios sobre sordos en subtitulación en tiempo real converge en un techo usable de aproximadamente dos segundos: más allá de ese punto, una persona sorda no puede formular una pregunta de aclaración mientras sigue siendo pertinente. Según ese criterio, Google Meet, Teams y Otter superan el umbral; Webex se sitúa en el límite; StreamText y Zoom no lo hacen.
La mayor latencia de StreamText es en parte arquitectónica —está dirigido por un operador, por lo que hay una pulsación humana en el circuito— y en parte el precio de su menor WER en jerga. La latencia de Zoom en nuestra configuración es más difícil de justificar: en una región estadounidense con subtítulos en la nube activados, estudios comparativos publicados anteriormente han informado de medianas de menos de tres segundos, por lo que una mediana de 5,6 s en nuestras pruebas en región europea refleja la infraestructura regional, no el límite de la plataforma.
Nombres, jerga y el problema del glosario
De las diecisiete entidades con nombre en el guión, cinco eran nombres en clave inventados para esta prueba comparativa. Los cinco se eligieron para ser nombres de producto plausibles pero no presentes en ningún corpus público: Halcyon, Bramble, Crosshatch, Sandstorm, Verity. Los tres primeros son palabras inglesas comunes; los dos últimos son menos frecuentes. Se esperaba que incluso los mejores servicios automatizados tuvieran dificultades con los casos de vocabulario poco frecuente, y así fue.
La conclusión es operativa. El vocabulario personalizado es el mayor factor de mejora de la precisión que controla el organizador de una reunión. Los tres servicios que admiten un glosario precargado (Otter, Teams y las configuraciones en la nube respaldadas por Azure de Webex que no probamos) superan de forma consistente a los que no lo hacen. Cuando el público incluye personas sordas o con dificultades auditivas y la reunión implica jerga o nombres propios, la ausencia de un campo de vocabulario personalizado es una limitación de accesibilidad significativa, no una función de conveniencia que falta.
SAS-LIVE certifica a un proveedor de subtítulos frente a un corpus publicado y un umbral de WER publicado (8 % en el momento de la redacción). La certificación es significativa como umbral mínimo —significa que el proveedor ha demostrado que su sistema puede superar el 8 % en el audio de certificación— pero no es un techo. Nuestra prueba comparativa utilizó un corpus diferente (discurso de panel con acento mixto y solapamiento), y los servicios certificados oscilaron entre 6,2 % (Otter) y 9,6 % (Teams) con nuestro audio. Considérese la certificación SAS-LIVE como un filtro de contratación, no como un sustituto de las pruebas con el audio que produce la propia organización.
Integración con tecnología de apoyo
La WER mide si la transcripción es correcta. La integración con tecnología de apoyo mide si un usuario con lector de pantalla, línea braille o lupa de baja visión puede realmente consumir la transcripción en tiempo real. Ambas cosas no son lo mismo. Una transcripción perfectamente precisa representada en un nodo del DOM sin atributo aria-live es invisible para una persona sordociega con una línea braille, porque la tecnología de apoyo nunca recibe la señal de que ha aparecido texto nuevo.
Auditamos el panel de subtítulos de cada plataforma respecto a cuatro propiedades de integración con tecnología de apoyo: anuncio de región activa, exportación de la transcripción al finalizar la reunión, controles con foco activable y atajo de teclado para activar/desactivar los subtítulos. La matriz:
La columna de integración con tecnología de apoyo reordena el ranking de forma interesante. Otter sigue en primer lugar; pero Teams, que quedó cuarto en WER, asciende a un empate en segundo lugar en integración con tecnología de apoyo. Webex se sitúa en el último lugar en ambos ejes. Una persona sordociega con una línea braille está mejor atendida por Otter o Google Meet en la generación actual de productos.
Lo que la transcriptora CART humana todavía hace mejor
La transcriptora CART de control superó a todos los servicios automatizados en todos los ejes medidos. WER del 3,1 % frente al mejor automatizado del 6,2 %. Recuperación de nombres en clave del 96 % frente al mejor automatizado del 71 %. WER en solapamiento de aproximadamente el 9 %, una cifra a la que ningún servicio automatizado se acercó ni en treinta puntos.
Pero la ventaja humana no es solo mecánica. Hay varios comportamientos editoriales que siguen siendo exclusivamente humanos. La transcriptora CART parafraseó a los hablantes que titubearon, preservando el significado a costa del literal estricto —los servicios automatizados o eliminan la frase titubeante o la interpretan como palabras sin sentido—. Etiquetó los turnos de hablante con un prefijo de nombre en cada cambio —los servicios automatizados intercalan sin atribución—. Insertó una nota aclaratoria entre corchetes cuando un hablante hacía referencia a una diapositiva que el público subtitulado no podía ver. Ninguno de estos movimientos aparece en una puntuación de WER, pero cada uno forma parte de por qué una reunión con subtítulos CART profesionales se siente accesible de una manera que raramente lo hace una automatizada.
La prueba comparativa en contexto
El hallazgo principal no es que un servicio ganara. Es que la diferencia entre el mejor y el peor es lo suficientemente amplia como para que la elección de plataforma sea en sí misma una decisión de accesibilidad. Una organización que optó por Webex porque ya estaba en la pila de contratación entregará una transcripción con más del doble de tasa de error que una organización que optó por Otter, con el mismo hablante, el mismo guión y el mismo audio. Eso no es una diferencia marginal.
El segundo hallazgo es que la subtitulación automatizada no es aún un sustituto de una transcriptora CART humana en condiciones donde la precisión realmente importa: procedimientos judiciales, consultas médicas, reuniones de consejo de administración, docencia en aula. La diferencia del 3,1 % / 6,2 % parece pequeña en un papel de números y se siente grande para una persona sorda que intenta seguir una conversación que avanza rápido. Cuando las consecuencias justifican el coste, una transcriptora CART humana sigue siendo el estándar de referencia, y el marco de certificación SAS-LIVE preserva explícitamente esa jerarquía.
El tercer hallazgo es operativo. El vocabulario personalizado es el factor de mejora de la accesibilidad más infrautilizado en las operaciones de reuniones. Tres de los seis servicios que probamos admiten un glosario precargado. Casi ninguna de las organizaciones con las que hablamos durante el diseño de esta prueba comparativa utilizaba esa función, incluso cuando estaba disponible en el nivel que ya habían contratado. Cargar los nombres propios y de producto de la reunión en el servicio de subtítulos antes de la reunión es una tarea de cinco minutos que cierra la mayor parte de la brecha en entidades con nombre.