Incidentes de accesibilidad en el postmortem SRE

Descripción de la imagen: un monitor que muestra un cuadro de mando de gestión de incidentes SRE con un banner rojo de alerta «INCIDENT» y un busca junto a él — el marcador visual del reporte de accesibilidad como incidente.

Tiempo de lectura: 9 minutos

Cuando una página de pago deja de funcionar, un equipo SRE recibe una alerta, se asigna un nivel de gravedad, se abre una sala de guerra y veinticuatro horas después circula un documento de postmortem sin culpables con una cronología, una sección de causa raíz y una lista de acciones correctivas. Cuando la misma página de pago lanza una regresión que hace que el campo de tarjeta de crédito no sea alcanzable por teclado, lo que suele suceder es que un ingeniero de frontend lo nota tres sprints después, abre un ticket de Jira etiquetado «accesibilidad» y el ticket permanece en un backlog hasta que alguien tiene capacidad disponible. Los dos resultados —un grupo de usuarios bloqueado para utilizar un sistema en producción que funciona— son funcionalmente idénticos. La respuesta interna es radicalmente diferente. Este ensayo argumenta que la segunda respuesta está rota, que la primera respuesta es la correcta y que el camino de la segunda a la primera es más corto de lo que la mayoría de las organizaciones de ingeniería suponen. Para el contexto práctico más amplio, véase nuestro artículo complementario sobre tratar la deuda de accesibilidad como deuda técnica; este artículo trata específicamente sobre la respuesta a incidentes.

El cambio no es filosófico. Las regresiones de accesibilidad son observables, son clasificables por nivel y encajan limpiamente en el mismo flujo de trabajo de gestión de incidentes que el equipo ya ejecuta en PagerDuty, Opsgenie, FireHydrant, Statuspage y en cualquier repositorio de runbooks que la organización haya estandarizado. Los instrumentos existen. La señal existe. El marco de clasificación —WCAG 2.2— es un contrato publicado y comparable por máquina con criterios que se mapean directamente a niveles de gravedad. Lo que suele faltar es el paso de diseño organizativo: alguien tiene que declarar que una regresión de a11y en producción es un incidente con mayúscula I, y esa declaración debe ir acompañada de una rotación de guardia, una matriz de gravedad, una plantilla de postmortem y un comité de revisión de acciones correctivas. Esa declaración es el trabajo que este ensayo intenta apoyar.

Un incidente, en la práctica SRE moderna, es cualquier evento no planificado que degrada el servicio para los usuarios. La definición no especifica qué usuarios, qué modalidad de interacción ni qué tecnología de apoyo. Un botón de inicio de sesión que devuelve un error 500 es un incidente porque el usuario no puede iniciar sesión. Un botón de inicio de sesión que ha perdido su nombre accesible y ahora se anuncia como «button» a un lector de pantalla también es un incidente, porque ese usuario tampoco puede iniciar sesión. Los equipos internos que leen esos dos modos de fallo han aplicado históricamente diferentes categorías mentales —el primero es «una interrupción», el segundo es «un error»— pero desde el asiento del usuario la experiencia es la misma: un sistema en producción que funcionaba ha dejado de funcionar para ellos.

La razón por la que a11y ha vivido fuera de este marco es en parte la instrumentación. Las interrupciones solían ser observables mediante monitores sintéticos y cuadros de mando de tasas de error, mientras que las regresiones de a11y solo salían a la luz mediante auditorías manuales semanas o meses después del despliegue. Esa brecha se ha cerrado. Axe-core, Pa11y, Lighthouse CI y la suite de monitorización continua de Deque ahora se ejecutan en cada despliegue en los pipelines maduros, con deltas que se muestran en los mismos paneles de Datadog o Grafana que muestran la latencia p99 y las tasas de 5xx. La señal es en tiempo real. La otra razón por la que a11y ha vivido fuera del marco es la confusión en la clasificación de gravedad: la gravedad de una interrupción es obvia porque la métrica es binaria (la página responde o no), mientras que la gravedad de una regresión de a11y ha parecido más subjetiva. No lo es. Un fallo WCAG 2.2 nivel A en una página de pago es un Sev-1 — la superficie legal y operativamente crítica es inutilizable para toda una clase de usuarios. Un fallo WCAG AA en la misma página de pago es un Sev-2. Una regresión de mejora AAA en una página de marketing es un Sev-4. La matriz es publicable en un documento de una página y puede ser ratificada por una organización de ingeniería en una sola reunión de planificación.

Detección: escáner y alertas

La pila de detección para a11y-como-incidente tiene tres capas y todas ya existen en el pipeline de CI si se ha realizado algún trabajo de accesibilidad continua. La primera capa es el escáner en tiempo de compilación. Cada pull request ejecuta axe-core o equivalente contra un conjunto representativo de páginas, devuelve un informe JSON y o bien falla la compilación ante regresiones o bien registra un hallazgo. Tiene la misma forma que Snyk, SonarQube o cualquier otra puerta de calidad. La segunda capa es la monitorización sintética en tiempo de despliegue. Después de que un despliegue llega a producción, un sintético de a11y —que ejecuta Chrome sin interfaz contra las mismas páginas de recorrido de usuario crítico que toca el monitor de disponibilidad— ejecuta el mismo escáner axe y escribe el resultado en el almacén de series temporales. La tercera capa es la detección de anomalías en tiempo de ejecución. Siempre que el escáner en tiempo de despliegue devuelve un delta —una nueva violación que no estaba presente en el despliegue anterior— ese delta dispara un webhook hacia PagerDuty (u Opsgenie, o lo que use el equipo), con un payload que incluye la URL de la página, el criterio WCAG, el nivel de gravedad y un enlace profundo a la captura de pantalla.

Ese webhook es donde ocurre la magia. La integración de PagerDuty trata el evento de a11y como un incidente normal con una gravedad normal, dispara la alerta normal a la rotación de guardia normal y abre un canal de incidente normal en Slack o Teams. El ingeniero de guardia que lo recibe no necesita ninguna formación especial en accesibilidad para triajear — solo necesita la entrada del runbook que dice «para un Sev-1 de a11y, revertir el despliegue y alertar al SME de a11y en la rotación». Esa entrada del runbook es un archivo YAML de cinco líneas, no más complicado que el runbook para una conmutación por error de base de datos. La pila de detección no es la parte difícil. Lo difícil es el paso cultural de tratar la alerta resultante como una alerta real, no como una notificación que alguien puede silenciar.

La plantilla de postmortem

Un postmortem sin culpables para un incidente de a11y comparte las secciones estándar de cualquier postmortem —resumen, cronología, impacto, causa raíz, lecciones aprendidas, acciones— y añade dos campos específicos que la plantilla genérica omite. El primer campo adicional es los usuarios afectados expresados como estimación de la población de tecnología de apoyo. Un postmortem estándar informa «aprox. 14.000 usuarios no pudieron completar el pago entre las 14:02 y las 15:37». Un postmortem de a11y informa «aprox. 280.000 usuarios en todo el mundo dependen de un lector de pantalla para la entrada de la tarjeta de crédito; la regresión hizo que el campo no pudiera anunciarse; la tasa de entrada de tarjeta de crédito para los usuarios que navegan sin vista cayó a cero durante la duración del incidente». El segundo campo adicional son los criterios WCAG violados, expresados por número de criterio y nivel de conformidad: «1.3.1 Información y relaciones (A), 4.1.2 Nombre, función, valor (A), 2.4.6 Encabezados y etiquetas (AA)». Estos dos campos son los que hacen que el postmortem sea legible para los socios legales, de accesibilidad y de cumplimiento que no leen postmortems de ingeniería por defecto.

El resto del documento sigue la plantilla estándar del SRE Workbook — una cronología en prosa clara indexada a marcas de tiempo UTC, un bloque de reflexión «qué salió bien / qué salió mal» y una lista de acciones correctivas, cada una propiedad de un ingeniero nombrado con una fecha límite y un ticket de Jira. El enfoque sin culpas importa aquí tanto como en cualquier otro lugar: el objetivo del postmortem no es encontrar al ingeniero que desplegó la regresión, sino encontrar la brecha del sistema que permitió que la regresión se desplegara. Los postmortems de a11y escritos con un tono de culpa producen un resultado — los ingenieros dejan de informar los problemas de a11y. Los postmortems de a11y escritos sin culpas producen el resultado opuesto — los ingenieros empiezan a reportarlos voluntariamente, porque la conversación es sobre el pipeline, no sobre la persona.

Los 5 porqués, adaptados para la accesibilidad

El ejercicio de los 5 porqués de Toyota —profundizar desde el síntoma hasta la causa preguntando «por qué» cinco veces seguidas— se traduce limpiamente a las regresiones de a11y y produce un conjunto diferente de hallazgos de causa raíz que el ejercicio equivalente sobre una interrupción de latencia. Un ejemplo elaborado: el campo de tarjeta de crédito ha perdido su nombre accesible. ¿Por qué? Porque el elemento <label> fue eliminado en el último sprint de rediseño. ¿Por qué? Porque el diseñador reemplazó la etiqueta con un patrón de etiqueta flotante implementado como un <span> con estilo. ¿Por qué? Porque el componente del sistema de diseño que utilizó el diseñador no incluye una variante de etiqueta flotante accesible por defecto. ¿Por qué? Porque el colaborador del sistema de diseño que construyó ese componente nunca ejecutó axe-core contra su entrada de Storybook. ¿Por qué? Porque el repositorio del sistema de diseño no tiene una puerta de CI para axe-core.

La acción correctiva se desprende del quinto porqué: añadir axe-core al CI del sistema de diseño. Obsérvese cuán diferente es esa conclusión de la acción correctiva que produciría un ejercicio de un solo porqué («volver a añadir la etiqueta al campo de tarjeta de crédito»). La corrección de un porqué parchea el síntoma. La corrección de cinco porqués previene las próximas veinte regresiones de la misma forma. La accesibilidad es particularmente receptiva al análisis de cinco porqués porque la mayoría de las regresiones de a11y tienen su causa raíz en una brecha del pipeline o del sistema de diseño, no en un único commit negligente — una vez que se encuentra la brecha, se corrige una vez y toda la clase de regresiones deja de producirse. Un equipo que aplica los cinco porqués en cada incidente de a11y Sev-1 y Sev-2 durante seis meses termina con un pipeline que detecta la gran mayoría de las regresiones antes de que lleguen a producción, sin que nadie tenga que escribir ni una sola auditoría manual adicional.

Tres estudios de caso

Una plataforma fintech con la que hemos hablado en el sector bancario minorista europeo adoptó el patrón de a11y-como-incidente a finales de 2024 después de que una investigación regulatoria forzara un cambio de postura. Añadieron escáneres axe-core a cada despliegue, conectaron los resultados en PagerDuty como un servicio dedicado «a11y» y añadieron un SME de a11y a la rotación de comandante de incidentes como respondedor de segundo nivel que recibe alertas para eventos Sev-1 y Sev-2. En los primeros seis meses registraron once incidentes de a11y — tres Sev-1 (flujo de inicio de sesión, confirmación de transacción, descarga de estado de cuenta), seis Sev-2 (formularios de configuración de cuenta, widgets de carga de documentos, el carrusel de marketing) y dos Sev-3 (regresiones cosméticas de contraste de color en el centro de ayuda). El tiempo medio de resolución de los Sev-1 fue de cuarenta y seis minutos. El tiempo medio de resolución de los Sev-1 en el período equivalente del año anterior, antes de adoptar el patrón, era de treinta y ocho días.

Una plataforma de comercio electrónico en la costa oeste de EE. UU. conectó el mismo patrón en FireHydrant en lugar de PagerDuty y añadió un componente de Statuspage llamado «Compatibilidad con tecnología de apoyo» que informa un estado explícito a los clientes públicos. El componente de Statuspage se puso en rojo dos veces en el primer trimestre — una vez por una regresión de lector de pantalla en la página de resultados de búsqueda, otra por una trampa de teclado en el modal de autocompletado de dirección — y ambas veces la publicación pública produjo comentarios entrantes de usuarios afectados en menos de cuatro horas, lo que aceleró materialmente la remediación. El efecto de confianza del cliente de reconocer públicamente un incidente de a11y, nos dijo el director de ingeniería de la plataforma, fue una externalidad positiva inesperada. Un proveedor SaaS B2B que vende software de gestión de proyectos fue más lejos con el patrón: designó un experto en la materia de a11y en la rotación de comandante de incidentes, dio a ese rol poder de veto sobre los despliegues en producción que introducen regresiones de a11y Sev-1 o Sev-2 y redujo su tasa de incidentes de a11y posteriores al despliegue en aprox. el 70 por ciento a lo largo de doce meses. El paso de diseño organizativo — poner a una persona nombrada en un asiento nombrado con autoridad nombrada — fue el único cambio de mayor apalancamiento.

Implicaciones para el diseño organizativo

La instrumentación de detección y postmortem es la parte fácil del cambio. La parte difícil es el diseño organizativo: alguien tiene que ser propietario de la rotación de guardia de a11y, alguien tiene que presidir el comité de revisión de acciones correctivas para los incidentes de a11y y alguien tiene que escribir las entradas del runbook que el ingeniero de guardia generalista lee a las tres de la madrugada. El patrón que funciona en los tres estudios de caso anteriores es el mismo patrón que funcionó cuando los equipos de seguridad atravesaron el cambio equivalente hace quince años: un pequeño equipo de a11y integrado — típicamente de dos a cuatro profesionales — es propietario de los runbooks, participa en la rotación de comandante de incidentes como rol de segundo nivel que recibe alertas, y preside una revisión semanal de todos los incidentes de a11y de la semana anterior. El ingeniero de guardia generalista maneja la primera respuesta (revertir el despliegue, abrir el canal de incidentes, alertar al SME); el SME maneja la clasificación, el mapeo WCAG y la redacción del postmortem.

La línea de reporte de este equipo importa y los estudios de caso no coinciden en ella. La fintech puso su equipo de a11y directamente bajo la organización SRE. La plataforma de comercio electrónico puso el suyo bajo los sistemas de diseño. El proveedor SaaS B2B lo puso bajo la excelencia de ingeniería, una función hermana del equipo de seguridad. Ninguna de estas es incorrecta. Lo que importa es que el equipo tenga un presupuesto, una plantilla, un repositorio de runbooks y credenciales de comandante de incidentes — las cosas que distinguen una función operativa de una función consultiva. Los equipos de a11y que han vivido dentro de los departamentos de diseño como funciones consultivas no pueden ejecutar un Sev-1 porque no pueden revertir un despliegue. Los equipos de a11y que han vivido dentro de la ingeniería como funciones operativas sí pueden. Ese es el cambio estructural que este ensayo intenta argumentar, y los estudios de caso sugieren que cuesta menos y se implementa más rápido de lo que las conversaciones de liderazgo a su alrededor suelen asumir. La pila de detección es estándar del mercado. La plantilla de postmortem es de una página. El runbook son cinco líneas de YAML. El cambio de diseño organizativo es un rol nombrado con una autoridad nombrada. El resultado es una postura de a11y que cierra las regresiones en cuarenta y seis minutos en lugar de treinta y ocho días — y una cultura de ingeniería en la que el usuario de solo teclado y el usuario sensible a la latencia son tratados, finalmente, como el mismo ciudadano de primera clase del sistema que el equipo cobra por mantener en funcionamiento.

Por qué las regresiones de accesibilidad son de nivel SRE

Detección: escáner y alertas

La plantilla de postmortem

Los 5 porqués, adaptados para la accesibilidad

Tres estudios de caso

Implicaciones para el diseño organizativo